JP7381813B2

JP7381813B2 - 知識蒸留に基づく予めトレーニング言語モデルの圧縮方法及びプラットフォーム

Info

Publication number: JP7381813B2
Application number: JP2022570419A
Authority: JP
Inventors: 宏升王; 光 ▲陳▼
Original assignee: 之江実験室
Priority date: 2020-09-02
Filing date: 2020-12-21
Publication date: 2023-11-16
Anticipated expiration: 2040-12-21
Also published as: WO2021248868A1; GB202214161D0; JP2023523644A; CN111767711B; GB2608919A9; GB2608919A; US20220067274A1; US11341326B2; CN111767711A

Description

本発明はマルチタスク向けの予めトレーニング言語モデルの自動圧縮の分野に属し、特に知識蒸留に基づく予めトレーニング言語モデルの圧縮方法及びプラットフォームに関する。

インテリジェント装置の普及に伴い、スマートフォン、ウェアラブル装置等の組込み装置に大規模言語モデルを適用することはますます一般的になりつつあり、しかしながら、深層学習ネットワークの規模が絶えず増加し、計算の複雑さもその分増加し、携帯電話等のインテリジェント装置での適用が大幅に制限されており、現在の対応方法はまだ教師モデルから生徒モデルへの一方向の知識蒸留による圧縮方法であるが、大規模言語モデルの圧縮過程での小さなサンプルの汎化が困難であるという問題はまだある。

本発明は、従来技術の欠陥に対して、知識蒸留に基づく予めトレーニング言語モデルの圧縮方法及びプラットフォームを提供することを目的とする。本発明の知識蒸留に基づく予めトレーニング言語モデル圧縮は、タスクとは無関係の小さなモデルを１つ設計して１つの大きなモデルの表現能力を学習し、圧縮によってある種類のタスクに汎用されるアーキテクチャを形成し、圧縮済みのモデルアーキテクチャを十分に利用してモデルの圧縮効率を向上させる。具体的には、特徴マッピング知識蒸留モジュール、自己注意交差知識蒸留及びベルヌーイ確率分布に基づく線形転移ポリシーによって、教師モデルと生徒モデルのトレーニング過程でのインクリメンタルな相互学習を行うことを実現し、それによって小さなサンプルの場合に生徒モデルのトレーニングの初期段階での学習品質及びトレーニングの後期段階での汎化能力を向上させる。

本発明の目的は以下の技術的解決手段によって実現される。知識蒸留に基づく予めトレーニング言語モデルの圧縮方法であって、該方法はＢＥＲＴモデルを圧縮し、特徴マッピング知識蒸留モジュール、自己注意交差知識蒸留モジュール、及びベルヌーイ確率分布に基づく線形学習モジュールを含み、元のＢＥＲＴモデルは教師モデルであり、圧縮後のＢＥＲＴモデルは生徒モデルであり、特徴マッピング知識蒸留モジュールは、特徴転移の知識蒸留ポリシーに基づいて、教師モデルから生徒モデルへの知識蒸留の過程で生徒モデルの各層の特徴マッピングを教師モデルの特徴マッピングに近似し、生徒モデルは教師モデルの中間層の特徴に注目し、これらの中間層特徴を使用して生徒モデルを指導し、自己注意交差知識蒸留モジュールは教師モデルと生徒モデルの自己注意ユニットを交差接続することにより、ネットワークの自己注意層で凸結合交差接続を行うことによって、教師モデルと生徒モデルの深層相互学習を実現し、ベルヌーイ確率分布に基づく線形学習モジュールは、教師モデルから生徒モデルへの特徴マッピング及び自己注意分布の知識転移を徐々に完了する。

さらに、前記特徴マッピング知識蒸留モジュールに層間正規化を追加することで層間トレーニング損失を安定させ、生徒ネットワークをトレーニングする際に、特徴マップ変換における平均値及び分散の２つの統計的差異を最小化する。

さらに、前記自己注意交差知識蒸留モジュールの転移目的関数は生徒モデルと教師モデルの注意力分布間の相対エントロピーを最小化する。

さらに、前記自己注意交差知識蒸留モジュールは、以下の第１段階、第２段階及び第３段階を含み、
前記第１段階では、教師ネットワークの自己注意ユニットを生徒ネットワークに入力し、転移目的関数を最小化し、具体的には、教師ネットワークの自己注意ユニットを基本真値とし、ネットワークの自己注意ユニットの位置で生徒ネットワークに入力し、生徒ネットワークは正しい監督信号を受けて後続層をトレーニングし、推定誤差が大きすぎて伝播する現象を回避し、
前記第２段階では、生徒ネットワークの自己注意ユニットを教師ネットワークに入力し、転移目的関数を最小化し、推定誤差が生徒ネットワークで層ごとに伝播するため、同一層の位置での生徒ネットワーク入力と教師ネットワーク入力に差異が存在し、生徒ネットワークの自己注意ユニットを教師ネットワークに入力することで、同じ入力を前提に生徒ネットワークが教師ネットワークの出力行為を模倣することを実現し、
前記第３段階では、ネットワークの自己注意ユニットにおいて、前記第１段階と前記第２段階の転移目的関数に対して凸結合を行い、交差転移の蒸留ポリシーを実現する。

さらに、前記ベルヌーイ確率分布に基づく線形学習モジュールは、特徴マッピング知識蒸留モジュールと自己注意交差知識蒸留モジュールを駆動するために、異なる線形転移確率を設定することに用いられ、以下のステップ１及びステップ２を含み、
前記ステップ１では、特徴マッピング知識蒸留モジュールと自己注意交差知識蒸留モジュールはいずれもベルヌーイ確率分布の転移確率を使用し、すなわち、現在ｉ番目のモジュールを転移することを仮定し、先に、ベルヌーイ分布によって１つの確率変数Ｘをサンプリングし、Ｘは０又は１であり、確率変数が１である場合に、現在のモジュールが転移学習を行うことを示し、そうでないと、行わないことを示し、
前記ステップ２では、前記ステップ１で一定の転移確率ｐを設定することで、圧縮モデルの需要を満たすことができるが、線形学習により駆動される転移確率はモデルのエンコーダモジュールを徐々に転移することに寄与し、本ステップ２では、線形学習により駆動される１つの転移確率ｐ_{ｌｉｎｅａｒ}を設計して、前記ステップ１での転移確率ｐを動的に調整し、すなわち、

式中、ｐ_{ｌｉｎｅａｒ}は現在モジュールを転移する転移確率を示し、ｉ番目のモジュールの転移は現在のトレーニングのｉ番目のステップに対応し、ｂは未トレーニング時の初期転移確率を示し、ｋは０よりも大きい動的値であり、且つトレーニングが１０００ステップ、５０００ステップ、１００００ステップ、３００００ステップまで増加する場合、これに対応して、ｐ_{ｌｉｎｅａｒ}が徐々に０．２５、０．５、０．７５、１．００まで増加することを満たす。

さらに、前記初期転移確率ｂの値の範囲は０．１～０．３である。

上記方法による知識蒸留に基づく予めトレーニング言語モデルの圧縮プラットフォームであって、データロードアセンブリ、圧縮アセンブリ及び推論アセンブリを含み、
前記データロードアセンブリは、マルチタスク向けのＢＥＲＴモデル及びそのトレーニングサンプルを取得することに用いられ、前記トレーニングサンプルは教師あり学習タスクを満たすラベル付きテキストサンプルであり、
前記圧縮アセンブリは、マルチタスク向けの大規模言語モデルを圧縮することに用いられ、教師モデル微調整モジュール、教師－生徒モデル蒸留モジュール、及び生徒モデル微調整モジュールを含み、前記教師モデル微調整モジュールは、ＢＥＲＴモデルをロードし、トレーニングサンプルを下流タスクが含まれるＢＥＲＴモデルに入力して微調整を行い、教師モデルを出力することに用いられ、前記教師－生徒モデル蒸留モジュールは、前記教師モデル微調整モジュールによって取得された教師モデルを使用して、前記特徴マッピング知識蒸留モジュール、自己注意交差知識蒸留モジュール及びベルヌーイ確率分布に基づく線形学習モジュールによって、教師から生徒への特徴マッピング及び自己注意分布の知識蒸留を徐々に完了し、生徒ネットワークの各ユニットモジュールの重みパラメータを更新し、前記生徒モデル微調整モジュールは、生徒ネットワークのすべてのエンコーダユニットモジュールを改めて組み合わせて完全なエンコーダを形成し、教師ネットワークの特徴層及び出力層を使用して下流タスクシーンに対して微調整を行い、微調整済みの生徒モデルを最終圧縮モデルとして出力し、
前記推論アセンブリは、前記圧縮アセンブリによって出力された圧縮モデルを使用して、実際のシーンのデータセットで自然言語処理の下流タスクを推論する。

さらに、前記圧縮アセンブリは、前記圧縮モデルを指定されたコンテナに出力してユーザーによるダウンロードに備え、圧縮前後のモデルサイズの比較情報を表示し、推論アセンブリによって圧縮モデルを使用して自然言語処理の下流タスクを推論し、圧縮前後の推論速度の比較情報を表示する。

本発明の有益な効果について、本発明は知識蒸留に基づく予めトレーニング言語モデル圧縮であり、タスクとは無関係の小さなモデルを１つ設計して１つの大きなモデルの表現能力を学習し、圧縮によってある種類のタスクに汎用されるアーキテクチャを形成し、圧縮済みのモデルアーキテクチャを十分に利用してモデルの圧縮効率を向上させる。

本発明はメモリ容量が小さく、リソースが制限されている等の端末側装置での大規模深層学習言語モデルの搭載を促進する。ＢＥＲＴをはじめとする大規模自然言語処理用予めトレーニングモデルは自然言語処理タスクの効果を大幅に向上させ、自然言語処理分野の発展を促進する。ＢＥＲＴ等のモデルの効果が非常によいであるが、１つの対話ロボットが１秒あたり１つだけの情報を処理できることは実際のシーンの需要を満たすことが困難であり、また、数十億レベルのパラメータのモデル、超大規模のＧＰＵ機械学習クラスター及び超長いモデルトレーニング時間は、モデルの活用を妨げている。本発明は、上記産業上の活用が直面する課題を解決するために、本発明に記載の知識蒸留に基づく予めトレーニング言語モデルの圧縮プラットフォームを使用して、圧縮によってある種類の自然言語処理タスクに汎用されるアーキテクチャを形成し、圧縮済みのモデルアーキテクチャを十分に利用することで、既存のモデルの性能及び精度がほぼ変わらないことを確保することを前提に、計算量を減少させ、モデルの体積を小さくし、モデルの推論速度を加速することができ、且つ大規模自然言語処理モデルをメモリ容量が小さく、リソースが制限されている等の端末側装置に搭載でき、汎用深層言語モデルの産業界での活用を促進する。

図１は本発明に係る知識蒸留に基づく予めトレーニング言語モデルの圧縮方法及びプラットフォームの全体的なアーキテクチャ図である。図２は自己注意ユニットの交差知識蒸留過程の模式図である。

図１に示すように、知識蒸留に基づく予めトレーニング言語モデルの圧縮方法は特徴マッピング知識蒸留モジュール、自己注意交差知識蒸留モジュール、及びベルヌーイ確率分布に基づく線形学習モジュールを含む。ここで、特徴マッピング知識蒸留モジュールは普遍的な特徴転移の知識蒸留ポリシーであり、教師モデルから生徒モデルへの知識蒸留の過程では、生徒モデルの各層の特徴マッピングを教師の特徴に近似し、生徒モデルは教師モデルの中間層の特徴に多く注目し、これらの特徴を使用して生徒モデルを指導する。自己注意交差知識蒸留モジュールは、教師ネットワークと生徒ネットワークの自己注意モジュールを交差接続することにより、ネットワークの自己注意層で凸結合交差接続を行うことによって、教師モデルと生徒モデルの深層相互学習を実現する。ベルヌーイ確率分布に基づく線形学習モジュールは、教師から生徒への特徴マッピング及び自己注意分布の知識転移を徐々に完了し、特徴マッピング知識蒸留モジュールと自己注意交差知識蒸留モジュールを駆動するために、異なる線形転移確率を設定する。

本発明の知識蒸留に基づく予めトレーニング言語モデルの圧縮方法は、ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ、トランスフォーマーによる双方向のエンコード表現）モデルを圧縮し、圧縮済みのモデルアーキテクチャを使用して圧縮効率を向上させる。本発明は、エンコーダユニットをモジュールの基本ユニットとし、元のモデルを教師モデルと略称し、圧縮後のモデルを生徒モデルと略称する。モデルの層数の圧縮比を２と仮定すると、半分の層数を圧縮する。元の教師モデルは１２層であり、圧縮後に６層であり、この場合、生徒モデルは、合計で６個のモジュールがあり、各モジュールに１つのエンコーダユニットが含まれる。教師モデルに対して、１２層を６個のモジュールに分割し、各モジュールに２つのエンコーダユニットが含まれ、このとき、教師モデルと生徒モデルとの１対１のマッピング関係を確立でき、その後、正式な圧縮ステップを行うことができ、全過程は、予めトレーニング段階ではなく特定の自然言語処理タスクの下流タスクの微調整段階で実施される。全トレーニング過程を加速するために、教師モデルの一部の重みを使用して生徒モデルのすべてのユニットモジュールを初期化し、すなわち、教師モデルの最初の６層のエンコーダユニットの重みと生徒モデルの６層のエンコーダユニットの重みとを共有させる。

本発明の圧縮方法の全過程は３つの段階に分けられ、第１段階は教師モデルの微調整である。まず、１２層の元のＢＥＲＴモデルを微調整して１つの教師モデルを形成する必要があり、第２段階は、特徴マッピング知識蒸留及び自己注意交差知識蒸留の段階であり、この段階では、教師モデルと生徒モデルを同時に考慮し、２つのモデルをトレーニングに関与させ、第３段階は生徒モデルの単独な微調整であり、すべての生徒モデルのモジュールを完全にトレーニングタスクに関与させることを目的とし、具体的な過程は以下の通りである。

ステップ１では、予めトレーニングＢＥＲＴモデル及びデータセットをロードし、教師モデルを微調整し、上記ＢＥＲＴモデルは特定の自然言語処理の下流タスクを含んでもよい。

ステップ２では、図１に示すように、生徒ネットワークの自己注意ユニットモジュールの重みパラメータを凍結し、ベルヌーイ確率分布に基づく線形学習ポリシーを使用して教師モデルから生徒モデルへの特徴マッピング知識蒸留過程を完了し、生徒ネットワークのほかのユニットモジュールの重みパラメータを更新し、以下のサブステップ（２．１）～（２．３）を含む。

サブステップ（２．１）では、現在ｉ番目の特徴マッピングモジュールを転移していることを仮定し、まず、ベルヌーイ分布によって１つの確率変数Ｘ（Ｘが０又は１であり）をサンプリングし、確率変数が１であると、現在のモジュールが転移学習を行うことを示し、現在の教師ネットワークの特徴マッピングユニットに対して線形転移を行い、そうでないと、行わないことを示す。

サブステップ（２．２）では、線形学習により駆動される転移確率がモデルの特徴マッピングモジュールを徐々に転移できることを考慮して、本ステップは線形学習により駆動される１つの転移確率ｐ_{ｌｉｎｅａｒ}を設計してサブステップ（２．１）での転移確率を動的に調整し、すなわち

その中、ｐ_{ｌｉｎｅａｒ}は現在モジュールを転移する線形学習により駆動される転移確率であり、ｉ番目のモジュールの転移は現在のトレーニングのｉ番目のステップに対応し、ｂは初期（ｉが０である場合）の転移確率であり、値の範囲が０．１～０．３である。ｋは０よりも大きい動的値であり、且つトレーニングのステップ数が１０００ステップ、５０００ステップ、１００００ステップ、３００００ステップまで増加する場合、これに対応して、ｐ_{ｌｉｎｅａｒ}が徐々に０．２５、０．５、０．７５、１．００まで増加することを満たす。

サブステップ（２．３）では、教師モデルと生徒モデルの特徴マッピング間の平均二乗偏差は知識転移目的関数として用いられ、層間正規化を追加することで層間トレーニング損失を安定させ、生徒ネットワークをトレーニングする時、特徴マップ変換における平均値及び分散の２つの統計的差異を最小化する。

ステップ３では、図２に示すように、自己注意交差知識蒸留段階では、教師から生徒への自己注意分布の知識蒸留を徐々に完了し、生徒ネットワークの各ユニットモジュールの重みパラメータを更新し、教師と生徒ネットワークの自己注意ユニットに対して凸結合交差接続を行い、転移目的関数は生徒モデルと教師モデルの注意力分布間の相対エントロピーを最小化するものであり、以下のサブステップ（３．１）～（３．３）を含む。

サブステップ（３．１）では、教師ネットワークの自己注意ユニットを生徒ネットワークに入力し、転移目的関数を最小化し、具体的には、教師ネットワークの自己注意ユニットを基本真値とし、ネットワークの自己注意ユニットの位置で生徒ネットワークに入力し、生徒ネットワークは正しい監督信号を受けて後続層をトレーニングし、推定誤差が大きすぎて伝播する現象を回避する。勿論、各教師ネットワークの自己注意ユニットを生徒ネットワークに入力することがなく、ベルヌーイ確率分布に基づく線形学習の教師ネットワークの自己注意ユニット転移ポリシーは、以下のサブステップ（３．１．１）～（３．１．２）を含む。

サブステップ（３．１．１）では、現在ｉ番目のモジュールを転移していることを仮定し、まず、ベルヌーイ分布によって１つの確率変数Ｘ（Ｘが０又は１である）をサンプリングし、確率変数が１であると、現在のモジュールが転移学習を行うことを示し、現在の教師ネットワークの自己注意ユニットに対して線形転移を行い、そうでないと、行わない。

サブステップ（３．１．２）では、サブステップ（３．１．１）で一定の転移確率ｐを設定したことで、圧縮モデルの需要を満たすことができるが、線形学習により駆動される転移確率はモデルのエンコーダモジュールを徐々に転移することに寄与し、本ステップでは、線形学習により駆動される１つの転移確率ｐ_{ｌｉｎｅａｒ}を設計して調整サブステップ（３．２．１）での転移確率ｐを動的に調整し、すなわち

式中、ｐ_{ｌｉｎｅａｒ}は現在モジュールを転移している線形学習により駆動される転移確率であり、ｉ番目のモジュールの転移は現在のトレーニングのｉ番目のステップに対応し、ｂは初期（ｉが０である場合）の転移確率であり、値の範囲が０．１～０．３である。ｋは０よりも大きい動的値であり、且つトレーニングのステップ数が１０００ステップ、５０００ステップ、１００００ステップ、３００００ステップまで増加する場合、これに対応して、ｐ_{ｌｉｎｅａｒ}が徐々に０．２５、０．５、０．７５、１．００まで増加することを満たす。

サブステップ（３．２）では、生徒ネットワークの自己注意ユニットを教師ネットワークに入力し、転移目的関数を最小化する。推定誤差が生徒ネットワークで層ごとに伝播するため、同一層の位置での生徒ネットワーク入力と教師ネットワーク入力に大きな差異が存在する。生徒ネットワークの自己注意ユニットを教師ネットワークに入力することで、同じ入力を前提に生徒ネットワークが教師ネットワークの出力行為を模倣することを実現し、同時に、ベルヌーイ確率分布に基づく線形学習の生徒ネットワークの自己注意ユニット転移ポリシーはサブステップ（３．１）における教師ネットワークの自己注意ユニット転移ポリシーと同じである。

サブステップ（３．３）では、サブステップ（３．１）及びサブステップ（３．２）の転移目的関数に対して凸結合を行い、交差転移の蒸留ポリシーを実現する。総合的モデル全体は依然として下流タスクの目的損失を使用してトレーニングを行う。ただし、教師ネットワークの重みがステップ１のオリジナル微調整段階で安定状態に達していることを考慮し、このとき、教師－生徒ネットワークの統合トレーニングに関与させると、忘却の問題を引き起こしてしまう。また、ステップ３の目的は、生徒ネットワークの各ユニットモジュールをできるだけ更新することであり、教師ネットワークを勾配更新に関与させると、生徒ネットワークのユニットモジュールが無視される可能性がある。教師ネットワークの重みを凍結することもモデル全体のトレーニング効率を向上させることができる。以上の考慮に基づいて、勾配伝達時、教師ネットワークに属するすべての重みパラメータは凍結されて勾配計算に関与せず、生徒ネットワークの関連するユニットモジュールの重みパラメータは勾配更新に関与する。

ステップ４では、生徒モデルを単独で微調整する。ステップ３が終了した後、各トレーニングステップでは、一部の異なる生徒ネットワークのユニットモジュールだけがトレーニングに関与し、生徒ネットワークのすべてのユニットモジュールが一括してタスクトレーニングに関与していないため、生徒モデルを単独で微調整する過程を追加する必要がある。生徒ネットワークのすべてのエンコーダユニットモジュールを改めて組み合わせて完全なエンコーダを形成し、教師ネットワークの特徴層及び出力層を利用して下流タスクシーンを微調整し、最終的に圧縮モデルを出力し、下流タスクを推論することに用いられる。

本発明に係る知識蒸留に基づく予めトレーニング言語モデルの圧縮プラットフォームは、データロードアセンブリ、圧縮アセンブリ、及び推論アセンブリを備え、
データロードアセンブリは、ログインユーザーがアップロードした、具体的な自然言語処理の下流タスクが含まれる圧縮対象となるＢＥＲＴモデル及びマルチタスク向けの予めトレーニング言語モデルのトレーニングサンプルを取得することに用いられ、上記トレーニングサンプルは教師あり学習タスクを満たすラベル付きテキストサンプルである。

圧縮アセンブリは、マルチタスク向けの大規模言語モデルを圧縮することに用いられ、教師モデル微調整モジュール、教師－生徒モデル蒸留モジュール、及び生徒モデル微調整モジュールを備える。

教師モデル微調整モジュールは、ＢＥＲＴ予めトレーニングモデルをロードし、且つ上記トレーニングサンプルを教師モデル（下流タスクが含まれるＢＥＲＴモデル）に入力して微調整を行い、教師モデルを出力することに用いられ、
教師－生徒モデル蒸留モジュールは、上記教師モデル微調整モジュールによって取得された教師モデルを使用して、特徴マッピング知識蒸留、自己注意交差知識蒸留、及びベルヌーイ確率分布に基づく線形学習に基づいて、生徒モデルの各ユニットモジュールの重みパラメータを更新し、
生徒モデル微調整モジュールは、上記知識蒸留によって得られた生徒モデルに基づいて微調整を行い、生徒ネットワークのすべてのエンコーダユニットモジュールを改めて組み合わせて完全なエンコーダを形成し、教師ネットワークの特徴層及び出力層を使用して下流タスクシーンを微調整し、最終的に微調整された生徒モデル、すなわち、ログインユーザーが所望する下流タスクが含まれる予めトレーニング言語モデル圧縮モデルを出力する。上記圧縮モデルを指定されたコンテナに出力して上記ユーザーによるダウンロードに備え、上記プラットフォームの圧縮モデル出力ページに圧縮前後のモデルサイズの比較情報を表示する。

推論アセンブリについては、ログインユーザーは上記プラットフォームから圧縮モデルを取得し、ユーザーは上記圧縮アセンブリによって出力された圧縮モデルを使用して実際のシーンのデータセットでログインユーザーがアップロードした自然言語処理の下流タスクの新たなデータを推論する。上記プラットフォームの圧縮モデル推論ページに圧縮前後の推論速度の比較情報を表示する。

本発明は、ログインユーザーがアップロードした特定の自然言語処理の下流タスクが含まれるＢＥＲＴモデルに従って圧縮を行ってもよく、ログインユーザーは上記プラットフォームによって生成された圧縮済みのモデルアーキテクチャをダウンロードして端末に搭載してもよい。上記プラットフォームで自然言語処理の下流タスクに対して推論を直接行ってもよい。

本発明は、自己注意交差知識蒸留ポリシーを設計し、単語間のセマンティクス及び構文を検出する能力を備える教師モデルの自己注意分布を十分に利用し、トレーニングの初期段階では、生徒ネットワークは教師ネットワークの自己注意層の監督信号を受けて後続層をトレーニングし、それによって推定誤差が大きすぎて伝播する現象を回避する。トレーニングの後期段階では、生徒ネットワークの自己注意層を教師ネットワークに入力し、それによって同じ入力を前提に生徒ネットワークは教師ネットワークの出力行為を模倣する。ネットワークの自己注意層で凸結合交差知識蒸留を行うポリシーによって、教師モデルと生徒モデルの深層相互学習を促進する。このような特性によって、小さなサンプルの場合に大規模言語圧縮モデルの汎化能力を大幅に向上させる。また、ベルヌーイ確率分布に基づく線形学習によりエンコーダモジュール転移を駆動するポリシーによって、トレーニングの初期段階では、より多くの教師モデルのエンコーダモジュールを学習に関与させ、より多くの教師モデルの特徴マッピング及び自己注意知識を関与させ、生徒モデル全体の品質を向上させ、より小さい損失関数値を得て、それによって全トレーニング過程がスムーズであり、モデルの初期学習過程で過剰な振れの現象を回避する。トレーニングの後期段階では、生徒モデルは優れて全体的性能を示し、このとき、より多くの生徒モデルの知識を学習に関与させ、生徒モデルを教師モデルへの依存から徐々に脱し、モデル全体をスムーズに生徒モデルの微調整段階に移行させ、モデル全体の汎化能力を向上させる。

以下、映画レビューの感情分類タスクを例として本発明の技術的解決手段をさらに詳細に説明する。

上記プラットフォームのデータロードアセンブリによって、ログインユーザーがアップロードした単一文のテキスト分類タスクのＢＥＲＴモデル及び感情分析データセットＳＳＴ－２を取得し、
上記プラットフォームによってＢＥＲＴ予めトレーニングモデルをロードし、テキスト分類タスクが含まれるＢＥＲＴモデルを微調整し、教師モデルを取得し、
上記プラットフォームの圧縮アセンブリによって、教師から生徒への特徴マッピング及び自己注意分布の知識蒸留を徐々に完了し、生徒ネットワークの各ユニットモジュールの重みパラメータを更新し、
上記知識蒸留によって得られた生徒モデルに基づいて微調整を行い、生徒ネットワークのすべてのエンコーダユニットモジュールを改めて組み合わせて完全なエンコーダを形成し、教師ネットワークの特徴層及び出力層を使用して下流タスクシーンを微調整し、最終的に、プラットフォームはログインユーザーニーズが所望するテキスト分類タスクが含まれるＢＥＲＴモデルの圧縮モデルを出力する。

上記圧縮モデルを指定されたコンテナに出力して上記ユーザーによるダウンロードに備え、上記プラットフォームの圧縮モデル出力ページに圧縮前後のモデルサイズの比較情報を表示し、モデルのサイズは圧縮前に１１０Ｍ、圧縮後に６６Ｍであり、４０％圧縮された。以下の表１に示された。

表１：テキスト分類タスクＢＥＲＴモデルの圧縮前後の比較情報

上記プラットフォームの推論アセンブリによって、上記プラットフォームが出力した圧縮モデルを使用して、ログインユーザーがアップロードしたＳＳＴ－２テストセットデータを推論し、上記プラットフォームの圧縮モデル推論ページには、圧縮後の推論速度が圧縮前よりも１．９５倍加速し、且つ推論精度が圧縮前の９１．５％から９１．８％に向上したことを表示した。

Claims

知識蒸留に基づく予めトレーニング言語モデルの圧縮方法であって、ＢＥＲＴモデルを圧縮し、特徴マッピング知識蒸留モジュール、自己注意交差知識蒸留モジュール、及びベルヌーイ確率分布に基づく線形学習モジュールを含み、元のＢＥＲＴモデルは教師モデルであり、圧縮後のＢＥＲＴモデルは生徒モデルであり、特徴マッピング知識蒸留モジュールは、特徴転移の知識蒸留ポリシーに基づいて、教師モデルから生徒モデルへの知識蒸留の過程で生徒モデルの各層の特徴マッピングを教師モデルの特徴マッピングに近似し、生徒モデルは教師モデルの中間層の特徴に注目し、これらの中間層特徴を使用して生徒モデルを指導し、自己注意交差知識蒸留モジュールは教師モデルと生徒モデルの自己注意ユニットを交差接続することにより、ネットワークの自己注意層で凸結合交差接続を行うことによって、教師モデルと生徒モデルの深層相互学習を実現し、ベルヌーイ確率分布に基づく線形学習モジュールは、教師モデルから生徒モデルへの特徴マッピング及び自己注意分布の知識転移を徐々に完了し、
前記自己注意交差知識蒸留モジュールは、以下の第１段階、第２段階及び第３段階を含み、
前記第１段階では、教師ネットワークの自己注意ユニットを生徒ネットワークに入力し、転移目的関数を最小化し、具体的には、教師ネットワークの自己注意ユニットを基本真値とし、ネットワークの自己注意ユニットの位置で生徒ネットワークに入力し、生徒ネットワークは正しい監督信号を受けて後続層をトレーニングし、推定誤差が大きすぎて伝播する現象を回避し、
前記第２段階では、生徒ネットワークの自己注意ユニットを教師ネットワークに入力し、転移目的関数を最小化し、推定誤差が生徒ネットワークで層ごとに伝播するため、同一層の位置での生徒ネットワーク入力と教師ネットワーク入力に差異が存在し、生徒ネットワークの自己注意ユニットを教師ネットワークに入力することで、同じ入力を前提に生徒ネットワークが教師ネットワークの出力行為を模倣することを実現し、
前記第３段階では、ネットワークの自己注意ユニットにおいて、前記第１段階と前記第２段階の転移目的関数に対して凸結合を行い、交差転移の蒸留ポリシーを実現し、
前記ベルヌーイ確率分布に基づく線形学習モジュールは、特徴マッピング知識蒸留モジュールと自己注意交差知識蒸留モジュールを駆動するために、異なる線形転移確率を設定することに用いられ、以下のステップ１及びステップ２を含み、
前記ステップ１では、特徴マッピング知識蒸留モジュールと自己注意交差知識蒸留モジュールはいずれもベルヌーイ確率分布の転移確率を使用し、すなわち、現在ｉ番目のモジュールを転移することを仮定し、先に、ベルヌーイ分布によって１つの確率変数Ｘをサンプリングし、Ｘは０又は１であり、確率変数が１である場合に、現在のモジュールが転移学習を行うことを示し、そうでないと、行わないことを示し、
前記ステップ２では、前記ステップ１で一定の転移確率ｐを設定することで、圧縮モデルの需要を満たすことができるが、線形学習により駆動される転移確率はモデルのエンコーダモジュールを徐々に転移することに寄与し、本ステップ２では、線形学習により駆動される１つの転移確率ｐ_{ｌｉｎｅａｒ}を設計して、前記ステップ１での転移確率ｐを動的に調整し、すなわち、

式中、ｐ_{ｌｉｎｅａｒ}は現在モジュールを転移する転移確率を示し、ｉ番目のモジュールの転移は現在のトレーニングのｉ番目のステップに対応し、ｂは未トレーニング時の初期転移確率を示し、ｋは０よりも大きい動的値であり、且つトレーニングが１０００ステップ、５０００ステップ、１００００ステップ、３００００ステップまで増加する場合、これに対応して、ｐ_{ｌｉｎｅａｒ}が徐々に０．２５、０．５、０．７５、１．００まで増加することを満たす
ことを特徴とする知識蒸留に基づく予めトレーニング言語モデルの圧縮方法。
前記特徴マッピング知識蒸留モジュールに層間正規化を追加することで層間トレーニング損失を安定させ、生徒ネットワークをトレーニングする際に、特徴マップ変換における平均値及び分散の２つの統計的差異を最小化する
ことを特徴とする請求項１に記載の知識蒸留に基づく予めトレーニング言語モデルの圧縮方法。
前記自己注意交差知識蒸留モジュールの転移目的関数は生徒モデルと教師モデルの注意力分布間の相対エントロピーを最小化する
ことを特徴とする請求項１に記載の知識蒸留に基づく予めトレーニング言語モデルの圧縮方法。
前記初期転移確率ｂの値の範囲は０．１～０．３である
ことを特徴とする請求項１に記載の知識蒸留に基づく予めトレーニング言語モデルの圧縮方法。
請求項１に記載の知識蒸留に基づく予めトレーニング言語モデルの圧縮方法のプラットフォームであって、データロードアセンブリ、圧縮アセンブリ及び推論アセンブリを含み、
前記データロードアセンブリは、マルチタスク向けのＢＥＲＴモデル及びそのトレーニングサンプルを取得することに用いられ、前記トレーニングサンプルは教師あり学習タスクを満たすラベル付きテキストサンプルであり、
前記圧縮アセンブリは、マルチタスク向けの大規模言語モデルを圧縮することに用いられ、教師モデル微調整モジュール、教師－生徒モデル蒸留モジュール、及び生徒モデル微調整モジュールを含み、前記教師モデル微調整モジュールは、ＢＥＲＴモデルをロードし、トレーニングサンプルを下流タスクが含まれるＢＥＲＴモデルに入力して微調整を行い、教師モデルを出力することに用いられ、前記教師－生徒モデル蒸留モジュールは、前記教師モデル微調整モジュールによって取得された教師モデルを使用して、前記特徴マッピング知識蒸留モジュール、自己注意交差知識蒸留モジュール及びベルヌーイ確率分布に基づく線形学習モジュールによって、教師から生徒への特徴マッピング及び自己注意分布の知識蒸留を徐々に完了し、生徒ネットワークの各ユニットモジュールの重みパラメータを更新し、前記生徒モデル微調整モジュールは、生徒ネットワークのすべてのエンコーダユニットモジュールを改めて組み合わせて完全なエンコーダを形成し、教師ネットワークの特徴層及び出力層を使用して下流タスクシーンに対して微調整を行い、微調整済みの生徒モデルを最終圧縮モデルとして出力し、
前記推論アセンブリは、前記圧縮アセンブリによって出力された圧縮モデルを使用して、実際のシーンのデータセットで自然言語処理の下流タスクを推論する
ことを特徴とするプラットフォーム。
前記圧縮アセンブリは、前記圧縮モデルを指定されたコンテナに出力してユーザーによるダウンロードに備え、圧縮前後のモデルサイズの比較情報を表示し、推論アセンブリによって圧縮モデルを使用して自然言語処理の下流タスクを推論し、圧縮前後の推論速度の比較情報を表示する
ことを特徴とする請求項５に記載のプラットフォーム。