JP7381813B2 - 知識蒸留に基づく予めトレーニング言語モデルの圧縮方法及びプラットフォーム - Google Patents

知識蒸留に基づく予めトレーニング言語モデルの圧縮方法及びプラットフォーム Download PDF

Info

Publication number
JP7381813B2
JP7381813B2 JP2022570419A JP2022570419A JP7381813B2 JP 7381813 B2 JP7381813 B2 JP 7381813B2 JP 2022570419 A JP2022570419 A JP 2022570419A JP 2022570419 A JP2022570419 A JP 2022570419A JP 7381813 B2 JP7381813 B2 JP 7381813B2
Authority
JP
Japan
Prior art keywords
model
student
module
teacher
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022570419A
Other languages
English (en)
Other versions
JP2023523644A (ja
Inventor
宏升 王
光 ▲陳▼
Original Assignee
之江実験室
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 之江実験室 filed Critical 之江実験室
Publication of JP2023523644A publication Critical patent/JP2023523644A/ja
Application granted granted Critical
Publication of JP7381813B2 publication Critical patent/JP7381813B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Description

本発明はマルチタスク向けの予めトレーニング言語モデルの自動圧縮の分野に属し、特に知識蒸留に基づく予めトレーニング言語モデルの圧縮方法及びプラットフォームに関する。
インテリジェント装置の普及に伴い、スマートフォン、ウェアラブル装置等の組込み装置に大規模言語モデルを適用することはますます一般的になりつつあり、しかしながら、深層学習ネットワークの規模が絶えず増加し、計算の複雑さもその分増加し、携帯電話等のインテリジェント装置での適用が大幅に制限されており、現在の対応方法はまだ教師モデルから生徒モデルへの一方向の知識蒸留による圧縮方法であるが、大規模言語モデルの圧縮過程での小さなサンプルの汎化が困難であるという問題はまだある。
本発明は、従来技術の欠陥に対して、知識蒸留に基づく予めトレーニング言語モデルの圧縮方法及びプラットフォームを提供することを目的とする。本発明の知識蒸留に基づく予めトレーニング言語モデル圧縮は、タスクとは無関係の小さなモデルを1つ設計して1つの大きなモデルの表現能力を学習し、圧縮によってある種類のタスクに汎用されるアーキテクチャを形成し、圧縮済みのモデルアーキテクチャを十分に利用してモデルの圧縮効率を向上させる。具体的には、特徴マッピング知識蒸留モジュール、自己注意交差知識蒸留及びベルヌーイ確率分布に基づく線形転移ポリシーによって、教師モデルと生徒モデルのトレーニング過程でのインクリメンタルな相互学習を行うことを実現し、それによって小さなサンプルの場合に生徒モデルのトレーニングの初期段階での学習品質及びトレーニングの後期段階での汎化能力を向上させる。
本発明の目的は以下の技術的解決手段によって実現される。知識蒸留に基づく予めトレーニング言語モデルの圧縮方法であって、該方法はBERTモデルを圧縮し、特徴マッピング知識蒸留モジュール、自己注意交差知識蒸留モジュール、及びベルヌーイ確率分布に基づく線形学習モジュールを含み、元のBERTモデルは教師モデルであり、圧縮後のBERTモデルは生徒モデルであり、特徴マッピング知識蒸留モジュールは、特徴転移の知識蒸留ポリシーに基づいて、教師モデルから生徒モデルへの知識蒸留の過程で生徒モデルの各層の特徴マッピングを教師モデルの特徴マッピングに近似し、生徒モデルは教師モデルの中間層の特徴に注目し、これらの中間層特徴を使用して生徒モデルを指導し、自己注意交差知識蒸留モジュールは教師モデルと生徒モデルの自己注意ユニットを交差接続することにより、ネットワークの自己注意層で凸結合交差接続を行うことによって、教師モデルと生徒モデルの深層相互学習を実現し、ベルヌーイ確率分布に基づく線形学習モジュールは、教師モデルから生徒モデルへの特徴マッピング及び自己注意分布の知識転移を徐々に完了する。
さらに、前記特徴マッピング知識蒸留モジュールに層間正規化を追加することで層間トレーニング損失を安定させ、生徒ネットワークをトレーニングする際に、特徴マップ変換における平均値及び分散の2つの統計的差異を最小化する。
さらに、前記自己注意交差知識蒸留モジュールの転移目的関数は生徒モデルと教師モデルの注意力分布間の相対エントロピーを最小化する。
さらに、前記自己注意交差知識蒸留モジュールは、以下の第1段階、第2段階及び第3段階を含み、
前記第1段階では、教師ネットワークの自己注意ユニットを生徒ネットワークに入力し、転移目的関数を最小化し、具体的には、教師ネットワークの自己注意ユニットを基本真値とし、ネットワークの自己注意ユニットの位置で生徒ネットワークに入力し、生徒ネットワークは正しい監督信号を受けて後続層をトレーニングし、推定誤差が大きすぎて伝播する現象を回避し、
前記第2段階では、生徒ネットワークの自己注意ユニットを教師ネットワークに入力し、転移目的関数を最小化し、推定誤差が生徒ネットワークで層ごとに伝播するため、同一層の位置での生徒ネットワーク入力と教師ネットワーク入力に差異が存在し、生徒ネットワークの自己注意ユニットを教師ネットワークに入力することで、同じ入力を前提に生徒ネットワークが教師ネットワークの出力行為を模倣することを実現し、
前記第3段階では、ネットワークの自己注意ユニットにおいて、前記第1段階と前記第2段階の転移目的関数に対して凸結合を行い、交差転移の蒸留ポリシーを実現する。
さらに、前記ベルヌーイ確率分布に基づく線形学習モジュールは、特徴マッピング知識蒸留モジュールと自己注意交差知識蒸留モジュールを駆動するために、異なる線形転移確率を設定することに用いられ、以下のステップ1及びステップ2を含み、
前記ステップ1では、特徴マッピング知識蒸留モジュールと自己注意交差知識蒸留モジュールはいずれもベルヌーイ確率分布の転移確率を使用し、すなわち、現在i番目のモジュールを転移することを仮定し、先に、ベルヌーイ分布によって1つの確率変数Xをサンプリングし、Xは0又は1であり、確率変数が1である場合に、現在のモジュールが転移学習を行うことを示し、そうでないと、行わないことを示し、
前記ステップ2では、前記ステップ1で一定の転移確率pを設定することで、圧縮モデルの需要を満たすことができるが、線形学習により駆動される転移確率はモデルのエンコーダモジュールを徐々に転移することに寄与し、本ステップ2では、線形学習により駆動される1つの転移確率plinearを設計して、前記ステップ1での転移確率pを動的に調整し、すなわち、
Figure 0007381813000001
式中、plinearは現在モジュールを転移する転移確率を示し、i番目のモジュールの転移は現在のトレーニングのi番目のステップに対応し、bは未トレーニング時の初期転移確率を示し、kは0よりも大きい動的値であり、且つトレーニングが1000ステップ、5000ステップ、10000ステップ、30000ステップまで増加する場合、これに対応して、plinearが徐々に0.25、0.5、0.75、1.00まで増加することを満たす。
さらに、前記初期転移確率bの値の範囲は0.1~0.3である。
上記方法による知識蒸留に基づく予めトレーニング言語モデルの圧縮プラットフォームであって、データロードアセンブリ、圧縮アセンブリ及び推論アセンブリを含み、
前記データロードアセンブリは、マルチタスク向けのBERTモデル及びそのトレーニングサンプルを取得することに用いられ、前記トレーニングサンプルは教師あり学習タスクを満たすラベル付きテキストサンプルであり、
前記圧縮アセンブリは、マルチタスク向けの大規模言語モデルを圧縮することに用いられ、教師モデル微調整モジュール、教師-生徒モデル蒸留モジュール、及び生徒モデル微調整モジュールを含み、前記教師モデル微調整モジュールは、BERTモデルをロードし、トレーニングサンプルを下流タスクが含まれるBERTモデルに入力して微調整を行い、教師モデルを出力することに用いられ、前記教師-生徒モデル蒸留モジュールは、前記教師モデル微調整モジュールによって取得された教師モデルを使用して、前記特徴マッピング知識蒸留モジュール、自己注意交差知識蒸留モジュール及びベルヌーイ確率分布に基づく線形学習モジュールによって、教師から生徒への特徴マッピング及び自己注意分布の知識蒸留を徐々に完了し、生徒ネットワークの各ユニットモジュールの重みパラメータを更新し、前記生徒モデル微調整モジュールは、生徒ネットワークのすべてのエンコーダユニットモジュールを改めて組み合わせて完全なエンコーダを形成し、教師ネットワークの特徴層及び出力層を使用して下流タスクシーンに対して微調整を行い、微調整済みの生徒モデルを最終圧縮モデルとして出力し、
前記推論アセンブリは、前記圧縮アセンブリによって出力された圧縮モデルを使用して、実際のシーンのデータセットで自然言語処理の下流タスクを推論する。
さらに、前記圧縮アセンブリは、前記圧縮モデルを指定されたコンテナに出力してユーザーによるダウンロードに備え、圧縮前後のモデルサイズの比較情報を表示し、推論アセンブリによって圧縮モデルを使用して自然言語処理の下流タスクを推論し、圧縮前後の推論速度の比較情報を表示する。
本発明の有益な効果について、本発明は知識蒸留に基づく予めトレーニング言語モデル圧縮であり、タスクとは無関係の小さなモデルを1つ設計して1つの大きなモデルの表現能力を学習し、圧縮によってある種類のタスクに汎用されるアーキテクチャを形成し、圧縮済みのモデルアーキテクチャを十分に利用してモデルの圧縮効率を向上させる。
本発明はメモリ容量が小さく、リソースが制限されている等の端末側装置での大規模深層学習言語モデルの搭載を促進する。BERTをはじめとする大規模自然言語処理用予めトレーニングモデルは自然言語処理タスクの効果を大幅に向上させ、自然言語処理分野の発展を促進する。BERT等のモデルの効果が非常によいであるが、1つの対話ロボットが1秒あたり1つだけの情報を処理できることは実際のシーンの需要を満たすことが困難であり、また、数十億レベルのパラメータのモデル、超大規模のGPU機械学習クラスター及び超長いモデルトレーニング時間は、モデルの活用を妨げている。本発明は、上記産業上の活用が直面する課題を解決するために、本発明に記載の知識蒸留に基づく予めトレーニング言語モデルの圧縮プラットフォームを使用して、圧縮によってある種類の自然言語処理タスクに汎用されるアーキテクチャを形成し、圧縮済みのモデルアーキテクチャを十分に利用することで、既存のモデルの性能及び精度がほぼ変わらないことを確保することを前提に、計算量を減少させ、モデルの体積を小さくし、モデルの推論速度を加速することができ、且つ大規模自然言語処理モデルをメモリ容量が小さく、リソースが制限されている等の端末側装置に搭載でき、汎用深層言語モデルの産業界での活用を促進する。
図1は本発明に係る知識蒸留に基づく予めトレーニング言語モデルの圧縮方法及びプラットフォームの全体的なアーキテクチャ図である。 図2は自己注意ユニットの交差知識蒸留過程の模式図である。
図1に示すように、知識蒸留に基づく予めトレーニング言語モデルの圧縮方法は特徴マッピング知識蒸留モジュール、自己注意交差知識蒸留モジュール、及びベルヌーイ確率分布に基づく線形学習モジュールを含む。ここで、特徴マッピング知識蒸留モジュールは普遍的な特徴転移の知識蒸留ポリシーであり、教師モデルから生徒モデルへの知識蒸留の過程では、生徒モデルの各層の特徴マッピングを教師の特徴に近似し、生徒モデルは教師モデルの中間層の特徴に多く注目し、これらの特徴を使用して生徒モデルを指導する。自己注意交差知識蒸留モジュールは、教師ネットワークと生徒ネットワークの自己注意モジュールを交差接続することにより、ネットワークの自己注意層で凸結合交差接続を行うことによって、教師モデルと生徒モデルの深層相互学習を実現する。ベルヌーイ確率分布に基づく線形学習モジュールは、教師から生徒への特徴マッピング及び自己注意分布の知識転移を徐々に完了し、特徴マッピング知識蒸留モジュールと自己注意交差知識蒸留モジュールを駆動するために、異なる線形転移確率を設定する。
本発明の知識蒸留に基づく予めトレーニング言語モデルの圧縮方法は、BERT(Bidirectional Encoder Representations from Transformers、トランスフォーマーによる双方向のエンコード表現)モデルを圧縮し、圧縮済みのモデルアーキテクチャを使用して圧縮効率を向上させる。本発明は、エンコーダユニットをモジュールの基本ユニットとし、元のモデルを教師モデルと略称し、圧縮後のモデルを生徒モデルと略称する。モデルの層数の圧縮比を2と仮定すると、半分の層数を圧縮する。元の教師モデルは12層であり、圧縮後に6層であり、この場合、生徒モデルは、合計で6個のモジュールがあり、各モジュールに1つのエンコーダユニットが含まれる。教師モデルに対して、12層を6個のモジュールに分割し、各モジュールに2つのエンコーダユニットが含まれ、このとき、教師モデルと生徒モデルとの1対1のマッピング関係を確立でき、その後、正式な圧縮ステップを行うことができ、全過程は、予めトレーニング段階ではなく特定の自然言語処理タスクの下流タスクの微調整段階で実施される。全トレーニング過程を加速するために、教師モデルの一部の重みを使用して生徒モデルのすべてのユニットモジュールを初期化し、すなわち、教師モデルの最初の6層のエンコーダユニットの重みと生徒モデルの6層のエンコーダユニットの重みとを共有させる。
本発明の圧縮方法の全過程は3つの段階に分けられ、第1段階は教師モデルの微調整である。まず、12層の元のBERTモデルを微調整して1つの教師モデルを形成する必要があり、第2段階は、特徴マッピング知識蒸留及び自己注意交差知識蒸留の段階であり、この段階では、教師モデルと生徒モデルを同時に考慮し、2つのモデルをトレーニングに関与させ、第3段階は生徒モデルの単独な微調整であり、すべての生徒モデルのモジュールを完全にトレーニングタスクに関与させることを目的とし、具体的な過程は以下の通りである。
ステップ1では、予めトレーニングBERTモデル及びデータセットをロードし、教師モデルを微調整し、上記BERTモデルは特定の自然言語処理の下流タスクを含んでもよい。
ステップ2では、図1に示すように、生徒ネットワークの自己注意ユニットモジュールの重みパラメータを凍結し、ベルヌーイ確率分布に基づく線形学習ポリシーを使用して教師モデルから生徒モデルへの特徴マッピング知識蒸留過程を完了し、生徒ネットワークのほかのユニットモジュールの重みパラメータを更新し、以下のサブステップ(2.1)~(2.3)を含む。
サブステップ(2.1)では、現在i番目の特徴マッピングモジュールを転移していることを仮定し、まず、ベルヌーイ分布によって1つの確率変数X(Xが0又は1であり)をサンプリングし、確率変数が1であると、現在のモジュールが転移学習を行うことを示し、現在の教師ネットワークの特徴マッピングユニットに対して線形転移を行い、そうでないと、行わないことを示す。
サブステップ(2.2)では、線形学習により駆動される転移確率がモデルの特徴マッピングモジュールを徐々に転移できることを考慮して、本ステップは線形学習により駆動される1つの転移確率plinearを設計してサブステップ(2.1)での転移確率を動的に調整し、すなわち
Figure 0007381813000002
その中、plinearは現在モジュールを転移する線形学習により駆動される転移確率であり、i番目のモジュールの転移は現在のトレーニングのi番目のステップに対応し、bは初期(iが0である場合)の転移確率であり、値の範囲が0.1~0.3である。kは0よりも大きい動的値であり、且つトレーニングのステップ数が1000ステップ、5000ステップ、10000ステップ、30000ステップまで増加する場合、これに対応して、plinearが徐々に0.25、0.5、0.75、1.00まで増加することを満たす。
サブステップ(2.3)では、教師モデルと生徒モデルの特徴マッピング間の平均二乗偏差は知識転移目的関数として用いられ、層間正規化を追加することで層間トレーニング損失を安定させ、生徒ネットワークをトレーニングする時、特徴マップ変換における平均値及び分散の2つの統計的差異を最小化する。
ステップ3では、図2に示すように、自己注意交差知識蒸留段階では、教師から生徒への自己注意分布の知識蒸留を徐々に完了し、生徒ネットワークの各ユニットモジュールの重みパラメータを更新し、教師と生徒ネットワークの自己注意ユニットに対して凸結合交差接続を行い、転移目的関数は生徒モデルと教師モデルの注意力分布間の相対エントロピーを最小化するものであり、以下のサブステップ(3.1)~(3.3)を含む。
サブステップ(3.1)では、教師ネットワークの自己注意ユニットを生徒ネットワークに入力し、転移目的関数を最小化し、具体的には、教師ネットワークの自己注意ユニットを基本真値とし、ネットワークの自己注意ユニットの位置で生徒ネットワークに入力し、生徒ネットワークは正しい監督信号を受けて後続層をトレーニングし、推定誤差が大きすぎて伝播する現象を回避する。勿論、各教師ネットワークの自己注意ユニットを生徒ネットワークに入力することがなく、ベルヌーイ確率分布に基づく線形学習の教師ネットワークの自己注意ユニット転移ポリシーは、以下のサブステップ(3.1.1)~(3.1.2)を含む。
サブステップ(3.1.1)では、現在i番目のモジュールを転移していることを仮定し、まず、ベルヌーイ分布によって1つの確率変数X(Xが0又は1である)をサンプリングし、確率変数が1であると、現在のモジュールが転移学習を行うことを示し、現在の教師ネットワークの自己注意ユニットに対して線形転移を行い、そうでないと、行わない。
サブステップ(3.1.2)では、サブステップ(3.1.1)で一定の転移確率pを設定したことで、圧縮モデルの需要を満たすことができるが、線形学習により駆動される転移確率はモデルのエンコーダモジュールを徐々に転移することに寄与し、本ステップでは、線形学習により駆動される1つの転移確率plinearを設計して調整サブステップ(3.2.1)での転移確率pを動的に調整し、すなわち
Figure 0007381813000003
式中、plinearは現在モジュールを転移している線形学習により駆動される転移確率であり、i番目のモジュールの転移は現在のトレーニングのi番目のステップに対応し、bは初期(iが0である場合)の転移確率であり、値の範囲が0.1~0.3である。kは0よりも大きい動的値であり、且つトレーニングのステップ数が1000ステップ、5000ステップ、10000ステップ、30000ステップまで増加する場合、これに対応して、plinearが徐々に0.25、0.5、0.75、1.00まで増加することを満たす。
サブステップ(3.2)では、生徒ネットワークの自己注意ユニットを教師ネットワークに入力し、転移目的関数を最小化する。推定誤差が生徒ネットワークで層ごとに伝播するため、同一層の位置での生徒ネットワーク入力と教師ネットワーク入力に大きな差異が存在する。生徒ネットワークの自己注意ユニットを教師ネットワークに入力することで、同じ入力を前提に生徒ネットワークが教師ネットワークの出力行為を模倣することを実現し、同時に、ベルヌーイ確率分布に基づく線形学習の生徒ネットワークの自己注意ユニット転移ポリシーはサブステップ(3.1)における教師ネットワークの自己注意ユニット転移ポリシーと同じである。
サブステップ(3.3)では、サブステップ(3.1)及びサブステップ(3.2)の転移目的関数に対して凸結合を行い、交差転移の蒸留ポリシーを実現する。総合的モデル全体は依然として下流タスクの目的損失を使用してトレーニングを行う。ただし、教師ネットワークの重みがステップ1のオリジナル微調整段階で安定状態に達していることを考慮し、このとき、教師-生徒ネットワークの統合トレーニングに関与させると、忘却の問題を引き起こしてしまう。また、ステップ3の目的は、生徒ネットワークの各ユニットモジュールをできるだけ更新することであり、教師ネットワークを勾配更新に関与させると、生徒ネットワークのユニットモジュールが無視される可能性がある。教師ネットワークの重みを凍結することもモデル全体のトレーニング効率を向上させることができる。以上の考慮に基づいて、勾配伝達時、教師ネットワークに属するすべての重みパラメータは凍結されて勾配計算に関与せず、生徒ネットワークの関連するユニットモジュールの重みパラメータは勾配更新に関与する。
ステップ4では、生徒モデルを単独で微調整する。ステップ3が終了した後、各トレーニングステップでは、一部の異なる生徒ネットワークのユニットモジュールだけがトレーニングに関与し、生徒ネットワークのすべてのユニットモジュールが一括してタスクトレーニングに関与していないため、生徒モデルを単独で微調整する過程を追加する必要がある。生徒ネットワークのすべてのエンコーダユニットモジュールを改めて組み合わせて完全なエンコーダを形成し、教師ネットワークの特徴層及び出力層を利用して下流タスクシーンを微調整し、最終的に圧縮モデルを出力し、下流タスクを推論することに用いられる。
本発明に係る知識蒸留に基づく予めトレーニング言語モデルの圧縮プラットフォームは、データロードアセンブリ、圧縮アセンブリ、及び推論アセンブリを備え、
データロードアセンブリは、ログインユーザーがアップロードした、具体的な自然言語処理の下流タスクが含まれる圧縮対象となるBERTモデル及びマルチタスク向けの予めトレーニング言語モデルのトレーニングサンプルを取得することに用いられ、上記トレーニングサンプルは教師あり学習タスクを満たすラベル付きテキストサンプルである。
圧縮アセンブリは、マルチタスク向けの大規模言語モデルを圧縮することに用いられ、教師モデル微調整モジュール、教師-生徒モデル蒸留モジュール、及び生徒モデル微調整モジュールを備える。
教師モデル微調整モジュールは、BERT予めトレーニングモデルをロードし、且つ上記トレーニングサンプルを教師モデル(下流タスクが含まれるBERTモデル)に入力して微調整を行い、教師モデルを出力することに用いられ、
教師-生徒モデル蒸留モジュールは、上記教師モデル微調整モジュールによって取得された教師モデルを使用して、特徴マッピング知識蒸留、自己注意交差知識蒸留、及びベルヌーイ確率分布に基づく線形学習に基づいて、生徒モデルの各ユニットモジュールの重みパラメータを更新し、
生徒モデル微調整モジュールは、上記知識蒸留によって得られた生徒モデルに基づいて微調整を行い、生徒ネットワークのすべてのエンコーダユニットモジュールを改めて組み合わせて完全なエンコーダを形成し、教師ネットワークの特徴層及び出力層を使用して下流タスクシーンを微調整し、最終的に微調整された生徒モデル、すなわち、ログインユーザーが所望する下流タスクが含まれる予めトレーニング言語モデル圧縮モデルを出力する。上記圧縮モデルを指定されたコンテナに出力して上記ユーザーによるダウンロードに備え、上記プラットフォームの圧縮モデル出力ページに圧縮前後のモデルサイズの比較情報を表示する。
推論アセンブリについては、ログインユーザーは上記プラットフォームから圧縮モデルを取得し、ユーザーは上記圧縮アセンブリによって出力された圧縮モデルを使用して実際のシーンのデータセットでログインユーザーがアップロードした自然言語処理の下流タスクの新たなデータを推論する。上記プラットフォームの圧縮モデル推論ページに圧縮前後の推論速度の比較情報を表示する。
本発明は、ログインユーザーがアップロードした特定の自然言語処理の下流タスクが含まれるBERTモデルに従って圧縮を行ってもよく、ログインユーザーは上記プラットフォームによって生成された圧縮済みのモデルアーキテクチャをダウンロードして端末に搭載してもよい。上記プラットフォームで自然言語処理の下流タスクに対して推論を直接行ってもよい。
本発明は、自己注意交差知識蒸留ポリシーを設計し、単語間のセマンティクス及び構文を検出する能力を備える教師モデルの自己注意分布を十分に利用し、トレーニングの初期段階では、生徒ネットワークは教師ネットワークの自己注意層の監督信号を受けて後続層をトレーニングし、それによって推定誤差が大きすぎて伝播する現象を回避する。トレーニングの後期段階では、生徒ネットワークの自己注意層を教師ネットワークに入力し、それによって同じ入力を前提に生徒ネットワークは教師ネットワークの出力行為を模倣する。ネットワークの自己注意層で凸結合交差知識蒸留を行うポリシーによって、教師モデルと生徒モデルの深層相互学習を促進する。このような特性によって、小さなサンプルの場合に大規模言語圧縮モデルの汎化能力を大幅に向上させる。また、ベルヌーイ確率分布に基づく線形学習によりエンコーダモジュール転移を駆動するポリシーによって、トレーニングの初期段階では、より多くの教師モデルのエンコーダモジュールを学習に関与させ、より多くの教師モデルの特徴マッピング及び自己注意知識を関与させ、生徒モデル全体の品質を向上させ、より小さい損失関数値を得て、それによって全トレーニング過程がスムーズであり、モデルの初期学習過程で過剰な振れの現象を回避する。トレーニングの後期段階では、生徒モデルは優れて全体的性能を示し、このとき、より多くの生徒モデルの知識を学習に関与させ、生徒モデルを教師モデルへの依存から徐々に脱し、モデル全体をスムーズに生徒モデルの微調整段階に移行させ、モデル全体の汎化能力を向上させる。
以下、映画レビューの感情分類タスクを例として本発明の技術的解決手段をさらに詳細に説明する。
上記プラットフォームのデータロードアセンブリによって、ログインユーザーがアップロードした単一文のテキスト分類タスクのBERTモデル及び感情分析データセットSST-2を取得し、
上記プラットフォームによってBERT予めトレーニングモデルをロードし、テキスト分類タスクが含まれるBERTモデルを微調整し、教師モデルを取得し、
上記プラットフォームの圧縮アセンブリによって、教師から生徒への特徴マッピング及び自己注意分布の知識蒸留を徐々に完了し、生徒ネットワークの各ユニットモジュールの重みパラメータを更新し、
上記知識蒸留によって得られた生徒モデルに基づいて微調整を行い、生徒ネットワークのすべてのエンコーダユニットモジュールを改めて組み合わせて完全なエンコーダを形成し、教師ネットワークの特徴層及び出力層を使用して下流タスクシーンを微調整し、最終的に、プラットフォームはログインユーザーニーズが所望するテキスト分類タスクが含まれるBERTモデルの圧縮モデルを出力する。
上記圧縮モデルを指定されたコンテナに出力して上記ユーザーによるダウンロードに備え、上記プラットフォームの圧縮モデル出力ページに圧縮前後のモデルサイズの比較情報を表示し、モデルのサイズは圧縮前に110M、圧縮後に66Mであり、40%圧縮された。以下の表1に示された。
表1:テキスト分類タスクBERTモデルの圧縮前後の比較情報
Figure 0007381813000004
上記プラットフォームの推論アセンブリによって、上記プラットフォームが出力した圧縮モデルを使用して、ログインユーザーがアップロードしたSST-2テストセットデータを推論し、上記プラットフォームの圧縮モデル推論ページには、圧縮後の推論速度が圧縮前よりも1.95倍加速し、且つ推論精度が圧縮前の91.5%から91.8%に向上したことを表示した。

Claims (6)

  1. 知識蒸留に基づく予めトレーニング言語モデルの圧縮方法であって、BERTモデルを圧縮し、特徴マッピング知識蒸留モジュール、自己注意交差知識蒸留モジュール、及びベルヌーイ確率分布に基づく線形学習モジュールを含み、元のBERTモデルは教師モデルであり、圧縮後のBERTモデルは生徒モデルであり、特徴マッピング知識蒸留モジュールは、特徴転移の知識蒸留ポリシーに基づいて、教師モデルから生徒モデルへの知識蒸留の過程で生徒モデルの各層の特徴マッピングを教師モデルの特徴マッピングに近似し、生徒モデルは教師モデルの中間層の特徴に注目し、これらの中間層特徴を使用して生徒モデルを指導し、自己注意交差知識蒸留モジュールは教師モデルと生徒モデルの自己注意ユニットを交差接続することにより、ネットワークの自己注意層で凸結合交差接続を行うことによって、教師モデルと生徒モデルの深層相互学習を実現し、ベルヌーイ確率分布に基づく線形学習モジュールは、教師モデルから生徒モデルへの特徴マッピング及び自己注意分布の知識転移を徐々に完了し、
    前記自己注意交差知識蒸留モジュールは、以下の第1段階、第2段階及び第3段階を含み、
    前記第1段階では、教師ネットワークの自己注意ユニットを生徒ネットワークに入力し、転移目的関数を最小化し、具体的には、教師ネットワークの自己注意ユニットを基本真値とし、ネットワークの自己注意ユニットの位置で生徒ネットワークに入力し、生徒ネットワークは正しい監督信号を受けて後続層をトレーニングし、推定誤差が大きすぎて伝播する現象を回避し、
    前記第2段階では、生徒ネットワークの自己注意ユニットを教師ネットワークに入力し、転移目的関数を最小化し、推定誤差が生徒ネットワークで層ごとに伝播するため、同一層の位置での生徒ネットワーク入力と教師ネットワーク入力に差異が存在し、生徒ネットワークの自己注意ユニットを教師ネットワークに入力することで、同じ入力を前提に生徒ネットワークが教師ネットワークの出力行為を模倣することを実現し、
    前記第3段階では、ネットワークの自己注意ユニットにおいて、前記第1段階と前記第2段階の転移目的関数に対して凸結合を行い、交差転移の蒸留ポリシーを実現し、
    前記ベルヌーイ確率分布に基づく線形学習モジュールは、特徴マッピング知識蒸留モジュールと自己注意交差知識蒸留モジュールを駆動するために、異なる線形転移確率を設定することに用いられ、以下のステップ1及びステップ2を含み、
    前記ステップ1では、特徴マッピング知識蒸留モジュールと自己注意交差知識蒸留モジュールはいずれもベルヌーイ確率分布の転移確率を使用し、すなわち、現在i番目のモジュールを転移することを仮定し、先に、ベルヌーイ分布によって1つの確率変数Xをサンプリングし、Xは0又は1であり、確率変数が1である場合に、現在のモジュールが転移学習を行うことを示し、そうでないと、行わないことを示し、
    前記ステップ2では、前記ステップ1で一定の転移確率pを設定することで、圧縮モデルの需要を満たすことができるが、線形学習により駆動される転移確率はモデルのエンコーダモジュールを徐々に転移することに寄与し、本ステップ2では、線形学習により駆動される1つの転移確率plinearを設計して、前記ステップ1での転移確率pを動的に調整し、すなわち、
    Figure 0007381813000005
    式中、plinearは現在モジュールを転移する転移確率を示し、i番目のモジュールの転移は現在のトレーニングのi番目のステップに対応し、bは未トレーニング時の初期転移確率を示し、kは0よりも大きい動的値であり、且つトレーニングが1000ステップ、5000ステップ、10000ステップ、30000ステップまで増加する場合、これに対応して、plinearが徐々に0.25、0.5、0.75、1.00まで増加することを満たす
    ことを特徴とする知識蒸留に基づく予めトレーニング言語モデルの圧縮方法。
  2. 前記特徴マッピング知識蒸留モジュールに層間正規化を追加することで層間トレーニング損失を安定させ、生徒ネットワークをトレーニングする際に、特徴マップ変換における平均値及び分散の2つの統計的差異を最小化する
    ことを特徴とする請求項1に記載の知識蒸留に基づく予めトレーニング言語モデルの圧縮方法。
  3. 前記自己注意交差知識蒸留モジュールの転移目的関数は生徒モデルと教師モデルの注意力分布間の相対エントロピーを最小化する
    ことを特徴とする請求項1に記載の知識蒸留に基づく予めトレーニング言語モデルの圧縮方法。
  4. 前記初期転移確率bの値の範囲は0.1~0.3である
    ことを特徴とする請求項1に記載の知識蒸留に基づく予めトレーニング言語モデルの圧縮方法。
  5. 請求項1に記載の知識蒸留に基づく予めトレーニング言語モデルの圧縮方法のプラットフォームであって、データロードアセンブリ、圧縮アセンブリ及び推論アセンブリを含み、
    前記データロードアセンブリは、マルチタスク向けのBERTモデル及びそのトレーニングサンプルを取得することに用いられ、前記トレーニングサンプルは教師あり学習タスクを満たすラベル付きテキストサンプルであり、
    前記圧縮アセンブリは、マルチタスク向けの大規模言語モデルを圧縮することに用いられ、教師モデル微調整モジュール、教師-生徒モデル蒸留モジュール、及び生徒モデル微調整モジュールを含み、前記教師モデル微調整モジュールは、BERTモデルをロードし、トレーニングサンプルを下流タスクが含まれるBERTモデルに入力して微調整を行い、教師モデルを出力することに用いられ、前記教師-生徒モデル蒸留モジュールは、前記教師モデル微調整モジュールによって取得された教師モデルを使用して、前記特徴マッピング知識蒸留モジュール、自己注意交差知識蒸留モジュール及びベルヌーイ確率分布に基づく線形学習モジュールによって、教師から生徒への特徴マッピング及び自己注意分布の知識蒸留を徐々に完了し、生徒ネットワークの各ユニットモジュールの重みパラメータを更新し、前記生徒モデル微調整モジュールは、生徒ネットワークのすべてのエンコーダユニットモジュールを改めて組み合わせて完全なエンコーダを形成し、教師ネットワークの特徴層及び出力層を使用して下流タスクシーンに対して微調整を行い、微調整済みの生徒モデルを最終圧縮モデルとして出力し、
    前記推論アセンブリは、前記圧縮アセンブリによって出力された圧縮モデルを使用して、実際のシーンのデータセットで自然言語処理の下流タスクを推論する
    ことを特徴とするプラットフォーム。
  6. 前記圧縮アセンブリは、前記圧縮モデルを指定されたコンテナに出力してユーザーによるダウンロードに備え、圧縮前後のモデルサイズの比較情報を表示し、推論アセンブリによって圧縮モデルを使用して自然言語処理の下流タスクを推論し、圧縮前後の推論速度の比較情報を表示する
    ことを特徴とする請求項5に記載のプラットフォーム。
JP2022570419A 2020-09-02 2020-12-21 知識蒸留に基づく予めトレーニング言語モデルの圧縮方法及びプラットフォーム Active JP7381813B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010910566.3 2020-09-02
CN202010910566.3A CN111767711B (zh) 2020-09-02 2020-09-02 基于知识蒸馏的预训练语言模型的压缩方法及平台
PCT/CN2020/138019 WO2021248868A1 (zh) 2020-09-02 2020-12-21 基于知识蒸馏的预训练语言模型的压缩方法及平台

Publications (2)

Publication Number Publication Date
JP2023523644A JP2023523644A (ja) 2023-06-06
JP7381813B2 true JP7381813B2 (ja) 2023-11-16

Family

ID=72729279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022570419A Active JP7381813B2 (ja) 2020-09-02 2020-12-21 知識蒸留に基づく予めトレーニング言語モデルの圧縮方法及びプラットフォーム

Country Status (5)

Country Link
US (1) US11341326B2 (ja)
JP (1) JP7381813B2 (ja)
CN (1) CN111767711B (ja)
GB (1) GB2608919A (ja)
WO (1) WO2021248868A1 (ja)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767711B (zh) 2020-09-02 2020-12-08 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台
GB2609768A (en) * 2020-11-02 2023-02-15 Zhejiang Lab Multi-task language model-oriented meta-knowledge fine tuning method and platform
CN112418291A (zh) * 2020-11-17 2021-02-26 平安科技(深圳)有限公司 一种应用于bert模型的蒸馏方法、装置、设备及存储介质
CN112529178B (zh) * 2020-12-09 2024-04-09 中国科学院国家空间科学中心 一种适用于无预选框检测模型的知识蒸馏方法及系统
CN112464959B (zh) * 2020-12-12 2023-12-19 中南民族大学 基于注意力和多重知识迁移的植物表型检测系统及其方法
JP7381814B2 (ja) * 2020-12-15 2023-11-16 之江実験室 マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法及びプラットフォーム
CN112232511B (zh) * 2020-12-15 2021-03-30 之江实验室 面向多任务的预训练语言模型自动压缩方法及平台
CN112580783B (zh) * 2020-12-16 2024-03-22 浙江工业大学 一种高维深度学习模型向低维迁移知识的跨维度知识迁移方法
CN112613273B (zh) * 2020-12-16 2022-09-23 上海交通大学 多语言bert序列标注模型的压缩方法及系统
CN112241455B (zh) * 2020-12-17 2021-05-04 之江实验室 基于多层级知识蒸馏预训练语言模型自动压缩方法及平台
JP7283835B2 (ja) * 2020-12-17 2023-05-30 之江実験室 マルチレベル知識蒸留に基づく事前訓練言語モデルの自動圧縮方法およびプラットフォーム
CN112613559B (zh) * 2020-12-23 2023-04-07 电子科技大学 基于相互学习的图卷积神经网络节点分类方法、存储介质和终端
CN112365385B (zh) * 2021-01-18 2021-06-01 深圳市友杰智新科技有限公司 基于自注意力的知识蒸馏方法、装置和计算机设备
CN113159168B (zh) * 2021-04-19 2022-09-02 清华大学 基于冗余词删除的预训练模型加速推理方法和系统
US11977842B2 (en) * 2021-04-30 2024-05-07 Intuit Inc. Methods and systems for generating mobile enabled extraction models
CN113177415B (zh) * 2021-04-30 2024-06-07 科大讯飞股份有限公司 语义理解方法、装置、电子设备和存储介质
CN113222123A (zh) * 2021-06-15 2021-08-06 深圳市商汤科技有限公司 模型训练方法、装置、设备及计算机存储介质
CN113420123A (zh) * 2021-06-24 2021-09-21 中国科学院声学研究所 语言模型的训练方法、nlp任务处理方法及装置
US11763082B2 (en) 2021-07-12 2023-09-19 International Business Machines Corporation Accelerating inference of transformer-based models
CN113592007B (zh) * 2021-08-05 2022-05-31 哈尔滨理工大学 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质
CN113849641B (zh) * 2021-09-26 2023-10-24 中山大学 一种跨领域层次关系的知识蒸馏方法和系统
CN113887610B (zh) * 2021-09-29 2024-02-02 内蒙古工业大学 基于交叉注意力蒸馏Transformer的花粉图像分类方法
CN113887230B (zh) * 2021-09-30 2024-06-25 北京熵简科技有限公司 一种面向金融场景的端到端自然语言处理训练系统与方法
US11450225B1 (en) * 2021-10-14 2022-09-20 Quizlet, Inc. Machine grading of short answers with explanations
CN117099125A (zh) * 2021-12-03 2023-11-21 宁德时代新能源科技股份有限公司 一种基于对比表征蒸馏的快速异常检测方法和系统
CN114461871B (zh) * 2021-12-21 2023-03-28 北京达佳互联信息技术有限公司 推荐模型训练方法、对象推荐方法、装置及存储介质
CN114004315A (zh) * 2021-12-31 2022-02-01 北京泰迪熊移动科技有限公司 一种基于小样本进行增量学习的方法及装置
CN114708467B (zh) * 2022-01-27 2023-10-13 西安交通大学 基于知识蒸馏的不良场景识别方法及系统及设备
CN114863248B (zh) * 2022-03-02 2024-04-26 武汉大学 一种基于深监督自蒸馏的图像目标检测方法
CN114972839B (zh) * 2022-03-30 2024-06-25 天津大学 一种基于在线对比蒸馏网络的广义持续分类方法
CN114580571B (zh) * 2022-04-01 2023-05-23 南通大学 一种基于迁移互学习的小样本电力设备图像分类方法
CN114972904B (zh) * 2022-04-18 2024-05-31 北京理工大学 一种基于对抗三元组损失的零样本知识蒸馏方法及系统
CN114969332A (zh) * 2022-05-18 2022-08-30 北京百度网讯科技有限公司 训练文本审核模型的方法和装置
CN115064155A (zh) * 2022-06-09 2022-09-16 福州大学 一种基于知识蒸馏的端到端语音识别增量学习方法及系统
CN115309849A (zh) * 2022-06-27 2022-11-08 北京邮电大学 一种基于知识蒸馏的特征提取方法、装置及数据分类方法
CN115131627B (zh) * 2022-07-01 2024-02-20 贵州大学 一种轻量化植物病虫害目标检测模型的构建和训练方法
CN115019183B (zh) * 2022-07-28 2023-01-20 北京卫星信息工程研究所 基于知识蒸馏和图像重构的遥感影像模型迁移方法
CN115457006B (zh) * 2022-09-23 2023-08-22 华能澜沧江水电股份有限公司 基于相似一致性自蒸馏的无人机巡检缺陷分类方法及装置
CN115272981A (zh) * 2022-09-26 2022-11-01 山东大学 云边共学习输电巡检方法与系统
CN115511059B (zh) * 2022-10-12 2024-02-09 北华航天工业学院 一种基于卷积神经网络通道解耦的网络轻量化方法
CN115423540B (zh) * 2022-11-04 2023-02-03 中邮消费金融有限公司 一种基于强化学习的金融模型知识蒸馏方法及装置
CN116110022B (zh) * 2022-12-10 2023-09-05 河南工业大学 基于响应知识蒸馏的轻量化交通标志检测方法及系统
CN115797976B (zh) * 2023-01-12 2023-05-30 广州紫为云科技有限公司 一种低分辨率的实时手势识别方法
CN116340779A (zh) * 2023-05-30 2023-06-27 北京智源人工智能研究院 一种下一代通用基础模型的训练方法、装置和电子设备
CN116415005B (zh) * 2023-06-12 2023-08-18 中南大学 一种面向学者学术网络构建的关系抽取方法
CN116542321B (zh) * 2023-07-06 2023-09-01 中科南京人工智能创新研究院 基于扩散模型的图像生成模型压缩和加速方法及系统
CN116776744B (zh) * 2023-08-15 2023-10-31 工业云制造(四川)创新中心有限公司 一种基于增强现实的装备制造控制方法及电子设备
CN117009830B (zh) * 2023-10-07 2024-02-13 之江实验室 一种基于嵌入特征正则化的知识蒸馏方法和系统
CN117612247A (zh) * 2023-11-03 2024-02-27 重庆利龙中宝智能技术有限公司 一种基于知识蒸馏的动静态手势识别方法
CN117197590B (zh) * 2023-11-06 2024-02-27 山东智洋上水信息技术有限公司 一种基于神经架构搜索与知识蒸馏的图像分类方法及装置
CN117668622B (zh) * 2024-02-01 2024-05-10 山东能源数智云科技有限公司 设备故障诊断模型的训练方法、故障诊断方法及装置
CN117892139B (zh) * 2024-03-14 2024-05-14 中国医学科学院医学信息研究所 基于层间比对的大语言模型训练和使用方法及相关装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062489A (zh) 2019-12-11 2020-04-24 北京知道智慧信息技术有限公司 一种基于知识蒸馏的多语言模型压缩方法、装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10575788B2 (en) * 2016-10-18 2020-03-03 Arizona Board Of Regents On Behalf Of Arizona State University Compressive sensing of quasi-periodic signals using generative models
US11210467B1 (en) * 2017-04-13 2021-12-28 Snap Inc. Machine learned language modeling and identification
CN107247989B (zh) * 2017-06-15 2020-11-24 北京图森智途科技有限公司 一种实时的计算机视觉处理方法及装置
CN108830288A (zh) * 2018-04-25 2018-11-16 北京市商汤科技开发有限公司 图像处理方法、神经网络的训练方法、装置、设备及介质
CN110232203B (zh) * 2019-04-22 2020-03-03 山东大学 知识蒸馏优化rnn短期停电预测方法、存储介质及设备
CN110147836B (zh) * 2019-05-13 2021-07-02 腾讯科技(深圳)有限公司 模型训练方法、装置、终端及存储介质
CN110097178A (zh) * 2019-05-15 2019-08-06 电科瑞达(成都)科技有限公司 一种基于熵注意的神经网络模型压缩与加速方法
CN110880036B (zh) * 2019-11-20 2023-10-13 腾讯科技(深圳)有限公司 神经网络压缩方法、装置、计算机设备及存储介质
US11797862B2 (en) * 2020-01-22 2023-10-24 Google Llc Extreme language model compression with optimal sub-words and shared projections
CN111461226A (zh) * 2020-04-01 2020-07-28 深圳前海微众银行股份有限公司 对抗样本生成方法、装置、终端及可读存储介质
EP4150535A4 (en) * 2020-06-05 2023-10-04 Huawei Technologies Co., Ltd. ENHANCED KNOWLEDGE DISTILLATION BY USING BACKWARD PASS KNOWLEDGE IN NEURAL NETWORKS
CN111767110B (zh) * 2020-07-01 2023-06-23 广州视源电子科技股份有限公司 图像处理方法、装置、系统、电子设备及存储介质
CN111767711B (zh) * 2020-09-02 2020-12-08 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062489A (zh) 2019-12-11 2020-04-24 北京知道智慧信息技术有限公司 一种基于知识蒸馏的多语言模型压缩方法、装置

Also Published As

Publication number Publication date
WO2021248868A1 (zh) 2021-12-16
GB202214161D0 (en) 2022-11-09
JP2023523644A (ja) 2023-06-06
CN111767711B (zh) 2020-12-08
GB2608919A9 (en) 2023-05-10
GB2608919A (en) 2023-01-18
US20220067274A1 (en) 2022-03-03
US11341326B2 (en) 2022-05-24
CN111767711A (zh) 2020-10-13

Similar Documents

Publication Publication Date Title
JP7381813B2 (ja) 知識蒸留に基づく予めトレーニング言語モデルの圧縮方法及びプラットフォーム
CN112565331B (zh) 一种基于边缘计算的端-边协同联邦学习优化方法
WO2023124296A1 (zh) 基于知识蒸馏的联合学习训练方法、装置、设备及介质
CN113868366B (zh) 一种面向流数据的在线跨模态检索方法与系统
CN114708270B (zh) 基于知识聚合与解耦蒸馏的压缩方法在语义分割中的应用
CN108763567A (zh) 应用于智能机器人交互的知识推理方法及装置
JP7381814B2 (ja) マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法及びプラットフォーム
Zhang Application of AI-based real-time gesture recognition and embedded system in the design of English major teaching
CN115375877A (zh) 一种基于通道注意力机制的三维点云分类方法及装置
Wan et al. A knowledge diffusion model in autonomous learning under multiple networks for personalized educational resource allocation
CN113962388A (zh) 一种硬件加速感知的神经网络通道剪枝方法
CN116209113B (zh) 一种应用于多通道led调光的非线性补偿方法及系统
WO2021159448A1 (zh) 一种基于序列推荐系统的通用网络压缩框架和压缩方法
CN116958862A (zh) 端侧分层神经网络模型训练方法、装置、计算机设备
CN106469428A (zh) 基于数轴的提升幼儿数学能力的系统及方法
CN114325931B (zh) 硅光器件的制造方法、硅光器件及光子集成线路
CN116343316A (zh) 基于自动编码变换的视线追踪方法及装置
CN110674335B (zh) 一种基于多生成多对抗的哈希码与图像双向转换方法
Li et al. College Students' Learning Decision-Making Based on Group Learning Behavior
US20200193852A1 (en) Systems and methods of educational tools implemented via smart speakers
CN117808083B (zh) 一种分布式训练通信方法、装置、系统、设备及存储介质
CN117689041B (zh) 云端一体化的嵌入式大语言模型训练方法及语言问答方法
Yu Design and Implementation of Mobile Intelligent Education System Based on Cloud Architecture
CN117910448A (zh) 短文本相似性判断方法、系统、存储介质及设备
CN113919487A (zh) 神经网络模型借鉴神经认知机理和机器学习数学方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221117

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20221125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230815

R150 Certificate of patent or registration of utility model

Ref document number: 7381813

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150