JP7381814B2 - マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法及びプラットフォーム - Google Patents

マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法及びプラットフォーム Download PDF

Info

Publication number
JP7381814B2
JP7381814B2 JP2022570738A JP2022570738A JP7381814B2 JP 7381814 B2 JP7381814 B2 JP 7381814B2 JP 2022570738 A JP2022570738 A JP 2022570738A JP 2022570738 A JP2022570738 A JP 2022570738A JP 7381814 B2 JP7381814 B2 JP 7381814B2
Authority
JP
Japan
Prior art keywords
distillation
model
network
knowledge
distilled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022570738A
Other languages
English (en)
Other versions
JP2023519770A (ja
Inventor
宏升 王
光 ▲陳▼
Original Assignee
之江実験室
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202011470331.3A external-priority patent/CN112232511B/zh
Application filed by 之江実験室 filed Critical 之江実験室
Publication of JP2023519770A publication Critical patent/JP2023519770A/ja
Application granted granted Critical
Publication of JP7381814B2 publication Critical patent/JP7381814B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は言語モデル圧縮の分野に属し、特にマルチタスク向けの予めトレーニング言語モデルの自動圧縮方法及びプラットフォームに関する。
大規模の予めトレーニング言語モデルは自然言語の理解及び生成タスクで優れた性能を達成しており、しかしながら、大量のパラメータを有する予めトレーニング言語モデルをメモリ容量の限られた装置に搭載することは依然として大きな課題に直面している。モデル圧縮の分野では、既存の言語モデル圧縮方法はいずれも特定タスクに対する言語モデル圧縮である。特定タスクに対する知識蒸留が非常に効果的であるにもかかわらず、大きいモデルの微調整及び推論には手間がかかり、計算コストも非常に高い。下流のほかのタスクを向ける場合、特定タスクの知識蒸留によって生成された予めトレーニングモデルは依然として大きいモデルを再度微調整して関連する大きいモデル知識を生成する必要がある。
既存のモデル圧縮で採用される知識蒸留戦略はほとんど層ごとの知識蒸留であり、すなわち、1つの教師ネットワーク及び1つの生徒ネットワークを与え、生徒ネットワークに対する監視及びトレーニングを実現するために、層ごとの知識蒸留の方法は2つのネットワーク間の特徴マップ上の距離を最小化することである。トレーニングデータが十分である場合、該方法は通常、良好な効果を得ることができる。しかし、小さいサンプルデータの場合、トレーニングは過剰適合の影響を受けやすく、推定誤差は大幅に増加し且つ層ごとに伝播する。従って、小さいサンプルの場合にニューラルネットワーク圧縮を行う中心的な課題は、圧縮後のモデルが非常に少量サンプルトレーニングインスタンスに過剰適合しやすく、その結果、推測過程でオリジナルネットワークとの間に大きな推定誤差があることである。推定誤差は層ごとに累積及び伝播し、最終的にネットワークの出力を破壊してしまう可能性がある。
また、既存の知識蒸留方法は主にデータ駆動型のスパース制約、又は手動で設計された蒸留戦略であり、通常、1つのBERTネットワークが12層のTransformerユニットを有し、各ユニットに8ヘッドの自己注意ユニットが含まれることを考慮すると、自己注意ユニットの可能な接続方式は億単位もあり、計算リソース等の制限により、すべての可能な蒸留構造を手動で設計し且つ最適な構造を見つけることはほとんど不可能である。
本発明は、従来技術の欠陥に対して、マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法及びプラットフォームを提供することを目的とする。
本発明の目的は以下の技術的解決手段によって実現される。マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法であって、以下の第1段階、第2段階及び第3段階を含み、
前記第1段階では、Transformerレイヤーサンプリングに基づく知識蒸留コーディングベクトルを構築し、具体的には、ベルヌーイ分布を使用してBERTモデルのすべてのTransformerユニットに対してレイヤーサンプリングを行い、知識蒸留コーディングベクトルを生成し、
前記第2段階では、メタ学習の知識蒸留ネットワークをトレーニングし、具体的には、探索空間を定義し、前記第1段階で構築された知識蒸留コーディングベクトルを該探索空間に入力し、条件を満たさない知識蒸留コーディングベクトルを除去し、構造生成器を定義し、スクリーニング済みの知識蒸留コーディングベクトルを入力とし、蒸留構造モデルを構築するための重み行列を出力し、対応する蒸留構造モデルを生成し、生成された蒸留構造モデルをトレーニングすることで構造生成器を更新し
前記第3段階では、進化的アルゴリズムに基づく蒸留構造モデルの探索過程であり、具体的には、特定の制約を満たす複数の知識蒸留コーディングベクトルを第2段階で更新された構造生成器に入力して、対応する重み行列を生成し、複数の蒸留構造モデルを得て、各蒸留構造モデルの精度を評価し、進化的アルゴリズムを使用して特定の制約を満たす精度が最も高い蒸留構造モデルを探索し、汎用圧縮アーキテクチャを得る。
さらに、前記第1段階では、具体的には、BERTモデルの12層のTransformerユニットに対して順にベルヌーイサンプリングを行って知識蒸留コーディングベクトルを生成し、各層は1つの確率変数に対応し、確率変数が1である確率は0.5以上である場合に、知識蒸留コーディングベクトルに対応する要素は1であり、現在のTransformerユニットが転移学習を行うことを示し、確率変数が1である確率値は0.5未満である場合に、レイヤーサンプリングベクトルに対応する要素は0であり、現在のTransformerユニットが転移学習を行わないことを示す。
さらに、前記探索空間を定義することは、具体的には、知識蒸留コーディングベクトルにおける要素が1である数量が6以上である。
さらに、前記構造生成器を定義することは、具体的には、構造生成器は2つの完全接続層からなり、入力が第1段階で構築された知識蒸留コーディングベクトルであり、出力が蒸留構造モデルを生成するための重み行列である。
さらに、生成された前記蒸留構造モデルをトレーニングすることで構造生成器を更新することは、以下のサブステップ2.1~サブステップ2.3を含み、
前記サブステップ2.1では、知識蒸留コーディングベクトルを構造生成器に入力して、重み行列を出力し、
前記サブステップ2.2では、構造生成器によって出力された重み行列に基づいて蒸留構造モデルを構築し、
前記サブステップ2.3では、構造生成器と蒸留構造モデルを共同でトレーニングし、具体的には、トレーニングデータを前記サブステップ2.2で生成された蒸留構造モデルに入力してモデルトレーニングを行い、且つ構造生成器が同期的に更新され、同時にベルヌーイ分布サンプリング方法と組み合わせて構造生成器をトレーニングする。
さらに、前記サブステップ2.2では、具体的には、第1段階で構築された、各々の要素が1層のTransformerユニットに対応する知識蒸留コーディングベクトルに従って、教師ネットワークの各Transformer層に対してレイヤーサンプリング及び知識蒸留を行い、教師モデルにおける知識蒸留コーディングベクトルに対応する要素が1であるTransformerユニットの重みを使用して、生徒モデルに転移するTransformerユニットを初期化し、すなわち、レイヤーサンプリングが1である各要素は構造生成器によって生徒モデルに対応するTransformerユニット及びその重みを生成し、知識蒸留コーディングベクトルによって教師モデルと生徒モデルとの1対1のマッピング関係を確立し、知識蒸留コーディングベクトルに従って対応する蒸留ネットワーク構造を生成する。
さらに、ベルヌーイ分布サンプリング方法と組み合わせて構造生成器をトレーニングすることは、具体的には、ベルヌーイ分布を使用して各層のTransformerユニットに対してレイヤーサンプリングを行い、異なる知識蒸留コーディングベクトルを構築し、トレーニングデータセットを使用して反復トレーニングを複数回行い、反復を行うごとに1つの知識蒸留コーディングベクトルに基づいて構造生成器と蒸留構造モデルを同時にトレーニングし、入力された知識蒸留コーディングベクトルを変更することによって学習して、異なる蒸留構造モデルのために重み行列を生成できる構造生成器を得ることである。
さらに、前記第3段階は、以下のサブステップ3.1~サブステップ3.4を含み、
前記サブステップ3.1では、知識蒸留コーディングベクトルを蒸留構造モデルの遺伝子として定義し、特定の制約を満たす一連の遺伝子を初期個体群としてランダムに選択し、
前記サブステップ3.2では、既存の個体群中の各遺伝子に対応する蒸留構造モデルの精度を評価し、精度が高い上位k個の遺伝子を選択し、
前記サブステップ3.3では、前記サブステップ3.2で選択された精度が高い上位k個の遺伝子を使用して遺伝的組換え及び遺伝的変異を行って新たな遺伝子を生成し、新たな遺伝子を既存の個体群に追加し、
前記サブステップ3.4では、前記サブステップ3.2~前記サブステップ3.3を所定回数繰り返して反復し、既存の個体群中の精度が高い上位k個の遺伝子を選択して新たな遺伝子を生成し、最終的に特定の制約を満たし且つ精度が最も高い遺伝子を取得する。
さらに、前記サブステップ3.3では、遺伝的変異とは、遺伝子中の一部の要素値をランダムに変更することであり、遺伝的組換えとは、2つの親世代の遺伝子をランダムに組み換えることであり、特定の制約を満たさない新たな遺伝子を除去する。
前記マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法に基づくプラットフォームであって、データロードアセンブリ、自動圧縮アセンブリ、及び推論アセンブリを含み、
前記データロードアセンブリは、マルチタスク向けの予めトレーニング言語モデルのトレーニングサンプルを取得することに用いられ、前記トレーニングサンプルは教師あり学習タスクを満たすラベル付きテキストサンプルであり、
前記自動圧縮アセンブリは、マルチタスク向けの予めトレーニング言語モデルを自動圧縮することに用いられ、知識蒸留ベクトルコーディングモジュール、蒸留ネットワーク生成モジュール、構造生成器・蒸留ネットワーク共同トレーニングモジュール、蒸留ネットワーク探索モジュール及び特定タスク微調整モジュールを含み、
前記知識蒸留ベクトルコーディングモジュールは、Transformerのレイヤーサンプリングベクトルを含み、順伝播過程では、知識蒸留コーディングベクトルを構造生成器に入力し、対応する構造の蒸留ネットワークと構造生成器の重み行列を生成し、
前記蒸留ネットワーク生成モジュールは、構造生成器に基づいて、現在入力された知識蒸留コーディングベクトルに対応する蒸留ネットワークを構築し、知識蒸留コーディングベクトルに対応する蒸留構造の入力出力のエンコーダユニットの数と同じように、構造生成器によって出力される重み行列の形状を調整し、
前記構造生成器・蒸留ネットワーク共同トレーニングモジュールは、エンドツーエンドのトレーニング構造生成器であり、具体的には、Transformerレイヤーサンプリングに基づく知識蒸留コーディングベクトル及び1つの小バッチのトレーニングデータを蒸留ネットワークに入力し、蒸留構造の重み及び構造生成器の重み行列を更新し、
前記蒸留ネットワーク探索モジュールは、特定の制約条件を満たす最高精度の蒸留ネットワークを探索するために、進化的アルゴリズムを提案して特定の制約条件を満たす最高精度の蒸留ネットワークを探索し、知識蒸留コーディングベクトルをトレーニング済みの構造生成器に入力し、対応する蒸留ネットワークの重みを生成し、検証セットで蒸留ネットワークを評価し、対応する蒸留ネットワークの精度を取得し、メタ学習蒸留ネットワークで使用される進化的探索アルゴリズムでは、各蒸留ネットワークはTransformerレイヤーサンプリングに基づく知識蒸留コーディングベクトルによって生成され、従って、知識蒸留コーディングベクトルを蒸留ネットワークの遺伝子として定義し、特定の制約条件を満たす場合、先に、一連の知識蒸留コーディングベクトルを蒸留ネットワークの遺伝子として選択し、検証セットで評価を行うことによって対応する蒸留ネットワークの精度を取得し、そして、精度が高い上位k個の遺伝子を選択し、遺伝的組換え及び変異によって新たな遺伝子を生成し、さらに上位k個の最適遺伝子の選択過程及び新たな遺伝子の生成過程を繰り返すことによって反復を行い、制約条件を満たし且つ精度が最も高い遺伝子を取得し、
前記特定タスク微調整モジュールは、前記自動圧縮アセンブリによって生成された予めトレーニングモデル蒸留ネットワークにおいて、下流タスクネットワークを構築し、蒸留ネットワークの特徴層及び出力層を使用して下流タスクシーンを微調整し、最終的に微調整された生徒モデル、すなわち、ログインユーザーが所望する下流タスクが含まれる予めトレーニング言語モデル圧縮モデルを出力し、前記ログインユーザーがダウンロードできるように前記圧縮モデルを指定されたコンテナに出力し、前記プラットフォームの圧縮モデル出力ページに圧縮前後のモデルサイズの比較情報を表示し、
前記推論アセンブリについては、ログインユーザーは前記プラットフォームから予めトレーニング圧縮モデルを取得し、ユーザーは前記自動圧縮アセンブリによって出力された圧縮モデルを使用して、実際のシーンのデータセットでログインユーザーがアップロードした自然言語処理の下流タスクの新たなデータを推論し、前記プラットフォームの圧縮モデル推論ページに圧縮前後の推論速度の比較情報を表示する。
本発明の有益な効果について、まず、本発明は、メタ学習の知識蒸留に基づいて様々な予めトレーニング言語モデルの汎用圧縮アーキテクチャを生成することを研究し、次に、トレーニング済みのメタ学習ネットワークをもとに、進化的アルゴリズムによって最適圧縮構造を探索し、それによってタスクとは無関係の予めトレーニング言語モデルの最適汎用圧縮アーキテクチャを得る。本発明に記載のマルチタスク向けの予めトレーニング言語モデルの自動圧縮プラットフォームを使用して圧縮を行ってマルチタスク向けの予めトレーニング言語モデルの汎用アーキテクチャを生成し、圧縮済みのモデルアーキテクチャを十分に利用して下流タスクの圧縮効率を向上させ、また、大規模自然言語処理モデルをメモリ容量が小さく、リソースが制限されている等の端末側装置に搭載でき、汎用深層言語モデルの産業界での活用を促進する。
図1は特定タスクと組み合わせた本発明における圧縮方法の全体的アーキテクチャ図である。 図2はメタ学習の知識蒸留ネットワークのトレーニングのフローチャートである。 図3は構造生成器に基づいて蒸留ネットワークを構築するアーキテクチャ図である。 図4は構造生成器と蒸留ネットワークの共同トレーニングのフローチャートである。 図5は進化的アルゴリズムに基づく蒸留ネットワーク探索のアーキテクチャ図である。
ニューラルネットワークアーキテクチャの探索から啓発され、特に少量サンプルの場合に、自動機械学習は1つのフィードバック回路に基づいて反復方式で自動知識蒸留を行うことができ、本発明は、メタ学習の知識蒸留に基づいて様々な予めトレーニング言語モデルの汎用圧縮アーキテクチャを生成することを研究する。具体的には、本発明は、まず、Transformerレイヤーサンプリングに基づく知識蒸留コーディングベクトルを構築し、異なる階層で大きいモデルの知識構造を蒸留する。構造生成器のメタネットワークを設計し、該構造生成器を使用して、現在入力されているコーディングベクトルに対応する蒸留構造モデルを生成する。同時に、ベルヌーイ分布サンプリング方法を提案して構造生成器をトレーニングする。反復を行うごとに、ベルヌーイ分布サンプリングを使用して転移する各エンコーダユニットを生成し、対応するコーディングベクトルを構成する。構造生成器に入力されたコーディングベクトル及び小バッチのトレーニングデータを変更することによって、構造生成器及び対応する蒸留構造を共同でトレーニングし、異なる蒸留構造のために重みを生成できる構造生成器を得ることができる。同時に、トレーニング済みのメタ学習ネットワークをもとに、進化的アルゴリズムによって最適圧縮構造を探索し、それによってタスクとは無関係の予めトレーニング言語モデルの最適汎用圧縮アーキテクチャを得る。本発明は、少量サンプルデータの場合にBERTモデル圧縮過程における過剰適合学習及び圧縮モデルの汎化能力の不足という問題を解決し、大規模深層言語モデルの少量サンプル条件での言語理解の実現可能性及び重要な技術を深入りに探索し、様々な下流タスクに向ける圧縮モデルの使用の柔軟性及び有効性を向上させる。既存の知識蒸留方法に比べて、メタ学習の知識蒸留は人々を煩瑣なハイパーパラメータ最適化から徹底的に解放できるとともに、様々なゴールメトリクス方法を使用して圧縮モデルを直接最適化することを可能にする。ほかの自動機械学習方法に比べて、メタ学習の知識蒸留は所要の圧縮構造を探索する時に条件制約を非常に容易に実施することができ、強化学習のハイパーパラメータを手動で調整する必要がない。本発明における圧縮方法の応用のテクノロジールートは、図1に示すように、大規模テキストデータセットに基づいて、メタ学習に基づく知識蒸留及び進化的アルゴリズムに基づく蒸留ネットワークの自動探索を研究し、メタ蒸留学習によってマルチタスク向けの大規模予めトレーニング言語モデルを自動圧縮して、様々なハード制約条件(例えば、浮動小数点演算回数)を満たし且つタスクとは無関係の汎用アーキテクチャを生成し、該汎用アーキテクチャを使用する際に、メタ蒸留学習ネットワークをともに下流タスクネットワークを構築し、下流タスクデータセットを入力し、特定の下流タスクのみを微調整し、計算コストを節約し、効率を向上させる。
本発明におけるマルチタスク向けの予めトレーニング言語モデルの自動圧縮方法の全過程は3つの段階に分けられ、第1段階では、Transformerレイヤーサンプリングに基づく知識蒸留コーディングベクトルの構築であり、第2段階では、メタ学習の知識蒸留ネットワークのトレーニングであり、第3段階では、進化的アルゴリズムに基づく最適圧縮構造の探索であり、具体的には、
第1段階では、Transformerレイヤーサンプリングに基づく知識蒸留コーディングベクトルを構築する。ベルヌーイ分布を使用してBERTモデルのすべてのTransformerユニットに対してレイヤーサンプリングを行い、1つのレイヤーサンプリングベクトルである知識蒸留コーディングベクトルを生成する。
具体的には、現在、i番目のTransformerユニット(エンコーダ)を転移しようすることを仮定し、確率変数X~Bernoulli(p)は1つの独立したベルヌーイ確率変数であり、1をとる確率がpであり、0をとる確率が1-pである。確率変数Xを使用してBERTモデルの12層のTransformerユニットに対して順にベルヌーイサンプリングを行い、12個の0又は1の要素からなる1つのベクトルを生成する。確率変数Xが1をとる確率pが0.5以上であると、レイヤーサンプリングベクトルに対応する要素は1であり、現在、Transformerユニットが転移学習を行うことを示し、確率変数Xが1をとる確率値が0.5未満であると、レイヤーサンプリングベクトルに対応する要素は0であり、現在、Transformerユニットが転移学習を行わないことを示す。ベルヌーイサンプリング方式を使用してBERTモデルに含まれるすべてのTransformerユニットに対して順にレイヤーサンプリングを行い、知識蒸留コーディングベクトルlayersampleを構成し、本実施例では、layersample=[l…l…l12]であり、lはlayersample中のi番目の要素であり、i=1~12である。
第2段階では、メタ学習の知識蒸留ネットワークをトレーニングする。図2に示すように、探索空間を定義し、第1段階で構築された知識蒸留コーディングベクトルを該探索空間に入力し、制約条件を満たさないベクトルを除去し、構造生成器を定義し、スクリーニング済みの知識蒸留コーディングベクトルを入力とし、蒸留ネットワークを構築するための重み行列を出力し、対応する蒸留構造モデルを生成し、バッチデータセットを使用して、生成された蒸留構造をトレーニングし且つ蒸留構造を更新し、それによって構造生成器を更新し、最終的に、反復更新後の構造生成器によって出力される重みを出力する。
探索空間の定義について、レイヤーサンプリングによって転移するTransformerユニット(l=1)の数が少なすぎることを防止するために、以下のようにレイヤーサンプリング制約条件の追加を提案し、
s.t. sum(l==1)≧6
すなわち、1つの知識蒸留ネットワーク構造を生成するごとに、BERTモデルのすべてのTransformerユニットのレイヤーサンプリング段階に対して制約条件を構築し、それによって知識蒸留コーディングベクトル中の要素が1である数量を6以上にし、そうでない場合、レイヤーサンプリングを再度行う。
構造生成器の定義について、構造生成器は1つのメタネットワークであり、2つの完全接続層からなり、入力は第1段階で構築された知識蒸留コーディングベクトルであり、出力は蒸留構造モデルを生成するための重み行列である。
構造生成器のトレーニングは以下のサブステップ1~3を含む。
サブステップ1では、順伝播過程では、知識蒸留コーディングベクトルを構造生成器に入力して重み行列を出力する。
サブステップ2では、図3に示すように、構造生成器に基づいて蒸留構造モデルを構築する過程であり、
第1段階で構築された、各々の要素lが1層のTransformerユニットに対応する知識蒸留コーディングベクトルに従って、教師ネットワークの各Transformer層に対してレイヤーサンプリング及び知識蒸留を行い、教師モデル中の知識蒸留コーディングベクトルの対応する要素が1であるTransformerユニットの重みを使用して、生徒モデルに転移するTransformerユニットを初期化し、すなわち、各レイヤーサンプリングが1である要素は構造生成器によって生徒モデルに対応するTransformerユニット及びその重みを生成し、知識蒸留コーディングベクトルによって教師モデルと生徒モデルとの1対1のマッピング関係を確立し、知識蒸留コーディングベクトルに従って対応する蒸留ネットワーク構造を生成する。
サブステップ3では、図4に示すように、構造生成器と蒸留構造モデルを共同でトレーニングする過程であり、
1つの小バッチのトレーニングデータをステップ2で生成された蒸留構造モデルに入力してモデルトレーニングを行い、蒸留構造モデルはパラメータ(重み行列)を更新した後、構造生成器も更新後のパラメータに従って更新し、すなわち、逆伝播過程では、蒸留構造モデルと構造生成器は同期的に更新され、構造生成器によって出力される重みは連鎖律によって計算でき、従って、構造生成器をエンドツーエンドでトレーニングすることができる。
また、ベルヌーイ分布サンプリング方法を提案して構造生成器をトレーニングし、具体的には、ベルヌーイ分布を使用して各層のTransformerユニットに対してレイヤーサンプリングを行い、異なる知識蒸留コーディングベクトルを構築し、同一のトレーニングデータセットを使用して反復トレーニングを複数回行い、反復を行うごとに1つの知識蒸留コーディングベクトルに基づいて構造生成器と蒸留構造モデルを同時にトレーニングし、入力された知識蒸留コーディングベクトルを変更することによって学習して、異なる蒸留構造モデルのために重み行列を生成できる構造生成器を得る。
そして、知識蒸留コーディングベクトルに対応する蒸留構造の入力出力のエンコーダユニットの数と同じように構造生成器によって出力される重み行列の形状を調整する必要がある。レイヤーサンプリングによって得られるコーディングベクトルが同じように維持し、具体的には、コーディングベクトル中の要素が1であるTransformerユニットの数及び位置に従って、構造生成器によって出力される重み行列の形状を調整する。
第3段階では、図5に示すように、進化的アルゴリズムに基づく蒸留ネットワーク探索の過程であり、
第2段階でトレーニングされたメタ学習の知識蒸留ネットワークをもとに、特定の制約条件を満たす複数の知識蒸留コーディングベクトルを構造生成器に入力して対応する重み行列を生成し、複数の蒸留構造モデルを得て、検証セットで各蒸留構造モデルを評価し、対応する精度を取得し、進化的アルゴリズムを使用して、特定の制約条件(例えば、浮動小数点演算回数)を満たし且つ精度が最も高い蒸留構造モデルを探索し、それによってタスクとは無関係の予めトレーニング言語モデルの汎用圧縮アーキテクチャ、例えば、図5におけるブロックでマークされるNetwork_2を得る。進化的探索アルゴリズムの具体的なステップは以下のステップ1~4である。
ステップ1では、各蒸留構造モデルはTransformerレイヤーサンプリングに基づく知識蒸留コーディングベクトルによって生成され、従って、知識蒸留コーディングベクトルを蒸留構造モデルの遺伝子Gとして定義し、制約条件Cを満たす一連の遺伝子を初期個体群としてランダムに選択する。
ステップ2では、既存の個体群中の各遺伝子Gに対応する蒸留構造モデルの検証セットでの推論精度accuracyを評価し、精度が最も高い上位k個の遺伝子を選択する。
ステップ3では、ステップ2で選択された精度が最も高い上位k個の遺伝子を使用して遺伝的組換え及び遺伝的変異を行って新たな遺伝子を生成し、新たな遺伝子を既存の個体群に追加する。遺伝的変異とは、遺伝子中の一部の要素値をランダムに変更することによって変異を行うことであり、遺伝的組換えとは、2つの親世代の遺伝子をランダムに組み換えることによって子世代を生成することであり、不適格な遺伝子を除去によって制約Cを非常に容易に強化できる。
ステップ4では、制約条件Cを満たし且つ精度が最も高い遺伝子を取得するまで、ステップ2及びステップ3をN回繰り返して反復し、既存の個体群中の上位k個の精度が最も高い遺伝子を選択して新たな遺伝子を生成する。
本発明におけるマルチタスク向けの予めトレーニング言語モデルの自動圧縮プラットフォームは、データロードアセンブリと、自動圧縮アセンブリと、推論アセンブリと、を備え、
データロードアセンブリは、ログインユーザーがアップロードした、具体的な自然言語処理の下流タスクを含む圧縮対象となるBERTモデル、及びマルチタスク向けの予めトレーニング言語モデルのトレーニングサンプルを取得することに用いられ、上記トレーニングサンプルは教師あり学習タスクを満たすラベル付きテキストサンプルである。
自動圧縮アセンブリは、マルチタスク向けの予めトレーニング言語モデルを自動圧縮することに用いられ、知識蒸留ベクトルコーディングモジュール、蒸留ネットワーク生成モジュール、構造生成器・蒸留ネットワーク共同トレーニングモジュール、蒸留ネットワーク探索モジュール、及び特定タスク微調整モジュールを備える。
知識蒸留ベクトルコーディングモジュールはTransformerのレイヤーサンプリングベクトルを含む。順伝播過程では、蒸留ネットワークコーディングベクトルを構造生成器に入力し、対応する構造の蒸留ネットワーク及び構造生成器の重み行列を生成する。
蒸留ネットワーク生成モジュールは構造生成器に基づいて、現在入力されているコーディングベクトルに対応する蒸留ネットワークを構築し、コーディングベクトルに対応する蒸留構造の入力出力のエンコーダユニットの数と同じように構造生成器によって出力される重み行列の形状を調整する。
構造生成器・蒸留ネットワーク共同トレーニングモジュールはエンドツーエンドのトレーニング構造生成器であり、具体的には、Transformerレイヤーサンプリングに基づく知識蒸留コーディングベクトル及び1つの小バッチのトレーニングデータを蒸留ネットワークに入力する。蒸留構造の重み及び構造生成器の重み行列を更新する。
蒸留ネットワーク探索モジュールは特定の制約条件を満たす最高精度の蒸留ネットワークを探索するために、進化的アルゴリズムを提案して特定の制約条件を満たす最高精度の蒸留ネットワークを探索する。ネットワークコーディングベクトルをトレーニング済みの構造生成器に入力し、対応する蒸留ネットワークの重みを生成し、検証セットで蒸留ネットワークを評価し、対応する蒸留ネットワークの精度を取得する。メタ学習蒸留ネットワークで使用される進化的探索アルゴリズムでは、各蒸留ネットワークはTransformerレイヤーサンプリングに基づくコーディングベクトルコーディングによって生成され、従って、蒸留ネットワークコーディングベクトルを蒸留ネットワークの遺伝子として定義する。特定の制約条件を満たす場合、まず、一連の蒸留ネットワークコーディングベクトルを蒸留ネットワークの遺伝子として選択し、検証セットで評価を行うことによって対応する蒸留ネットワークの精度を取得する。次に、精度が最も高い上位k個の遺伝子を選択し、遺伝的組換え及び変異によって新たな遺伝子を生成する。さらに上位k個の最適遺伝子の選択過程及び新たな遺伝子の生成過程を繰り返すことによって反復を行い、制約条件を満たし且つ精度が最も高い遺伝子を取得する。
特定タスク微調整モジュールは上記自動圧縮アセンブリによって生成された予めトレーニングモデル蒸留ネットワーク上に下流タスクネットワークを構築し、蒸留ネットワークの特徴層及び出力層を使用して下流タスクシーンを微調整し、最終的に微調整された生徒モデル、すなわち、ログインユーザーが所望する下流タスクが含まれる予めトレーニング言語モデル圧縮モデルを出力する。上記ログインユーザーがダウンロードできるように上記圧縮モデルを指定されたコンテナに出力し、上記プラットフォームの圧縮モデル出力ページに圧縮前後のモデルサイズの比較情報を表示する。
推論アセンブリについては、ログインユーザーは上記プラットフォームから予めトレーニング圧縮モデルを取得し、ユーザーは上記自動圧縮アセンブリによって出力された圧縮モデルを使用して実際のシーンのデータセットでログインユーザーがアップロードした自然言語処理の下流タスクの新たなデータを推論する。上記プラットフォームの圧縮モデル推論ページに圧縮前後の推論速度の比較情報を表示する。
ログインユーザーは本発明のプラットフォームによって提供されるトレーニング済みの予めトレーニング言語モデルを直接ダウンロードし、具体的な自然言語処理の下流タスクに対するユーザーの需要に応じて、上記プラットフォームによって生成された圧縮済みの予めトレーニングモデルアーキテクチャをもとに下流タスクネットワークを構築し、微調整を行い、最終的に端末装置に搭載するようにしてもよい。上記プラットフォームで自然言語処理の下流タスクを直接推論するようにしてもよい。
以下、映画レビューの感情分類タスクを例として本発明の技術的解決手段をさらに詳細に説明する。
上記プラットフォームのデータロードアセンブリによって、ログインユーザーがアップロードした単一文のテキスト分類タスクのBERTモデル及び感情分析データセットSST-2を取得し、
上記プラットフォームの自動圧縮アセンブリによってBERT予めトレーニングモデルを生成し、上記生成された予めトレーニングモデルにテキスト分類タスクのモデルを構築し、
上記自動圧縮アセンブリの特定タスク微調整モジュールによって得られた生徒モデルに基づいて微調整を行い、自動圧縮アセンブリによって生成されたBERT予めトレーニングモデルの特徴層及び出力層を使用して下流テキスト分類タスクシーンに対して微調整を行い、最終的に、プラットフォームはログインユーザーが所望するテキスト分類タスクのBERTモデルが含まれる圧縮モデルを出力した。
上記ログインユーザーがダウンロードできるように上記圧縮モデルを指定されたコンテナに出力し、上記プラットフォームの圧縮モデル出力ページに圧縮前後のモデルサイズの比較情報を表示し、モデルのサイズは圧縮前に110M、圧縮後に56Mであり、49%圧縮された。以下の表1に示された。
表1:テキスト分類タスクBERTモデルの圧縮前後の比較情報
Figure 0007381814000001
上記プラットフォームの推論アセンブリによって、上記プラットフォームが出力した圧縮モデルを使用して、ログインユーザーがアップロードしたSST-2テストセットデータを推論し、上記プラットフォームの圧縮モデル推論ページには、圧縮後の推論速度が圧縮前よりも2.01倍加速し、且つ推論精度が圧縮前の91.5%から92.0%に向上したことを表示した。

Claims (10)

  1. マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法であって、以下の第1段階、第2段階及び第3段階を含み、
    前記第1段階では、Transformerレイヤーサンプリングに基づく知識蒸留コーディングベクトルを構築し、具体的には、ベルヌーイ分布を使用してBERTモデルのすべてのTransformerユニットに対してレイヤーサンプリングを行い、知識蒸留コーディングベクトルを生成し、
    前記第2段階では、メタ学習の知識蒸留ネットワークをトレーニングし、具体的には、探索空間を定義し、前記第1段階で構築された知識蒸留コーディングベクトルを該探索空間に入力し、条件を満たさない知識蒸留コーディングベクトルを除去し、構造生成器を定義し、スクリーニング済みの知識蒸留コーディングベクトルを入力とし、蒸留構造モデルを構築するための重み行列を出力し、対応する蒸留構造モデルを生成し、生成された蒸留構造モデルをトレーニングすることで構造生成器を更新し
    前記第3段階では、進化的アルゴリズムに基づく蒸留構造モデルの探索過程であり、具体的には、特定の制約を満たす複数の知識蒸留コーディングベクトルを第2段階で更新された構造生成器に入力して、対応する重み行列を生成し、複数の蒸留構造モデルを得て、各蒸留構造モデルの精度を評価し、進化的アルゴリズムを使用して特定の制約を満たす精度が最も高い蒸留構造モデルを探索し、汎用圧縮アーキテクチャを得る
    ことを特徴とするマルチタスク向けの予めトレーニング言語モデルの自動圧縮方法。
  2. 前記第1段階では、具体的には、BERTモデルの12層のTransformerユニットに対して順にベルヌーイサンプリングを行って知識蒸留コーディングベクトルを生成し、各層は1つの確率変数に対応し、確率変数が1である確率は0.5以上である場合に、知識蒸留コーディングベクトルに対応する要素は1であり、現在のTransformerユニットが転移学習を行うことを示し、確率変数が1である確率値は0.5未満である場合に、レイヤーサンプリングベクトルに対応する要素は0であり、現在のTransformerユニットが転移学習を行わないことを示す
    ことを特徴とする請求項1に記載のマルチタスク向けの予めトレーニング言語モデルの自動圧縮方法。
  3. 前記探索空間を定義することは、具体的には、知識蒸留コーディングベクトルにおける要素が1である数量が6以上である
    ことを特徴とする請求項2に記載のマルチタスク向けの予めトレーニング言語モデルの自動圧縮方法。
  4. 前記構造生成器を定義することは、具体的には、構造生成器は2つの完全接続層からなり、入力が第1段階で構築された知識蒸留コーディングベクトルであり、出力が蒸留構造モデルを生成するための重み行列である
    ことを特徴とする請求項3に記載のマルチタスク向けの予めトレーニング言語モデルの自動圧縮方法。
  5. 生成された前記蒸留構造モデルをトレーニングすることで構造生成器を更新することは、以下のサブステップ2.1~サブステップ2.3を含み、
    前記サブステップ2.1では、知識蒸留コーディングベクトルを構造生成器に入力して、重み行列を出力し、
    前記サブステップ2.2では、構造生成器によって出力された重み行列に基づいて蒸留構造モデルを構築し、
    前記サブステップ2.3では、構造生成器と蒸留構造モデルを共同でトレーニングし、具体的には、トレーニングデータを前記サブステップ2.2で生成された蒸留構造モデルに入力してモデルトレーニングを行い、且つ構造生成器が同期的に更新され、同時にベルヌーイ分布サンプリング方法と組み合わせて構造生成器をトレーニングする
    ことを特徴とする請求項4に記載のマルチタスク向けの予めトレーニング言語モデルの自動圧縮方法。
  6. 前記サブステップ2.2では、具体的には、第1段階で構築された、各々の要素が1層のTransformerユニットに対応する知識蒸留コーディングベクトルに従って、教師ネットワークの各Transformer層に対してレイヤーサンプリング及び知識蒸留を行い、教師モデルにおける知識蒸留コーディングベクトルに対応する要素が1であるTransformerユニットの重みを使用して、生徒モデルに転移するTransformerユニットを初期化し、すなわち、レイヤーサンプリングが1である各要素は構造生成器によって生徒モデルに対応するTransformerユニット及びその重みを生成し、知識蒸留コーディングベクトルによって教師モデルと生徒モデルとの1対1のマッピング関係を確立し、知識蒸留コーディングベクトルに従って対応する蒸留ネットワーク構造を生成する
    ことを特徴とする請求項5に記載のマルチタスク向けの予めトレーニング言語モデルの自動圧縮方法。
  7. ベルヌーイ分布サンプリング方法と組み合わせて構造生成器をトレーニングすることは、具体的には、ベルヌーイ分布を使用して各層のTransformerユニットに対してレイヤーサンプリングを行い、異なる知識蒸留コーディングベクトルを構築し、トレーニングデータセットを使用して反復トレーニングを複数回行い、反復を行うごとに1つの知識蒸留コーディングベクトルに基づいて構造生成器と蒸留構造モデルを同時にトレーニングし、入力された知識蒸留コーディングベクトルを変更することによって学習して、異なる蒸留構造モデルのために重み行列を生成できる構造生成器を得ることである
    ことを特徴とする請求項6に記載のマルチタスク向けの予めトレーニング言語モデルの自動圧縮方法。
  8. 前記第3段階は、以下のサブステップ3.1~サブステップ3.4を含み、
    前記サブステップ3.1では、知識蒸留コーディングベクトルを蒸留構造モデルの遺伝子として定義し、特定の制約を満たす一連の遺伝子を初期個体群としてランダムに選択し、
    前記サブステップ3.2では、既存の個体群中の各遺伝子に対応する蒸留構造モデルの精度を評価し、精度が高い上位k個の遺伝子を選択し、
    前記サブステップ3.3では、前記サブステップ3.2で選択された精度が高い上位k個の遺伝子を使用して遺伝的組換え及び遺伝的変異を行って新たな遺伝子を生成し、新たな遺伝子を既存の個体群に追加し、
    前記サブステップ3.4では、前記サブステップ3.2~前記サブステップ3.3を所定回数繰り返して反復し、既存の個体群中の精度が高い上位k個の遺伝子を選択して新たな遺伝子を生成し、最終的に特定の制約を満たし且つ精度が最も高い遺伝子を取得する
    ことを特徴とする請求項7に記載のマルチタスク向けの予めトレーニング言語モデルの自動圧縮方法。
  9. 前記サブステップ3.3では、遺伝的変異とは、遺伝子中の一部の要素値をランダムに変更することであり、遺伝的組換えとは、2つの親世代の遺伝子をランダムに組み換えることであり、特定の制約を満たさない新たな遺伝子を除去する
    ことを特徴とする請求項8に記載のマルチタスク向けの予めトレーニング言語モデルの自動圧縮方法。
  10. 請求項1~9のいずれか1項に記載の前記マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法に基づくプラットフォームであって、データロードアセンブリ、自動圧縮アセンブリ、及び推論アセンブリを含み、
    前記データロードアセンブリは、マルチタスク向けの予めトレーニング言語モデルのトレーニングサンプルを取得することに用いられ、前記トレーニングサンプルは教師あり学習タスクを満たすラベル付きテキストサンプルであり、
    前記自動圧縮アセンブリは、マルチタスク向けの予めトレーニング言語モデルを自動圧縮することに用いられ、知識蒸留ベクトルコーディングモジュール、蒸留ネットワーク生成モジュール、構造生成器・蒸留ネットワーク共同トレーニングモジュール、蒸留ネットワーク探索モジュール及び特定タスク微調整モジュールを含み、
    前記知識蒸留ベクトルコーディングモジュールは、Transformerのレイヤーサンプリングベクトルを含み、順伝播過程では、知識蒸留コーディングベクトルを構造生成器に入力し、対応する構造の蒸留ネットワークと構造生成器の重み行列を生成し、
    前記蒸留ネットワーク生成モジュールは、構造生成器に基づいて、現在入力された知識蒸留コーディングベクトルに対応する蒸留ネットワークを構築し、知識蒸留コーディングベクトルに対応する蒸留構造の入力出力のエンコーダユニットの数と同じように、構造生成器によって出力される重み行列の形状を調整し、
    前記構造生成器・蒸留ネットワーク共同トレーニングモジュールは、エンドツーエンドのトレーニング構造生成器であり、具体的には、Transformerレイヤーサンプリングに基づく知識蒸留コーディングベクトル及び1つの小バッチのトレーニングデータを蒸留ネットワークに入力し、蒸留構造の重み及び構造生成器の重み行列を更新し、
    前記蒸留ネットワーク探索モジュールは、特定の制約条件を満たす最高精度の蒸留ネットワークを探索するために、進化的アルゴリズムを提案して特定の制約条件を満たす最高精度の蒸留ネットワークを探索し、知識蒸留コーディングベクトルをトレーニング済みの構造生成器に入力し、対応する蒸留ネットワークの重みを生成し、検証セットで蒸留ネットワークを評価し、対応する蒸留ネットワークの精度を取得し、メタ学習蒸留ネットワークで使用される進化的探索アルゴリズムでは、各蒸留ネットワークはTransformerレイヤーサンプリングに基づく知識蒸留コーディングベクトルによって生成され、従って、知識蒸留コーディングベクトルを蒸留ネットワークの遺伝子として定義し、特定の制約条件を満たす場合、先に、一連の知識蒸留コーディングベクトルを蒸留ネットワークの遺伝子として選択し、検証セットで評価を行うことによって対応する蒸留ネットワークの精度を取得し、そして、精度が高い上位k個の遺伝子を選択し、遺伝的組換え及び変異によって新たな遺伝子を生成し、さらに上位k個の最適遺伝子の選択過程及び新たな遺伝子の生成過程を繰り返すことによって反復を行い、制約条件を満たし且つ精度が最も高い遺伝子を取得し、
    前記特定タスク微調整モジュールは、前記自動圧縮アセンブリによって生成された予めトレーニングモデル蒸留ネットワークにおいて、下流タスクネットワークを構築し、蒸留ネットワークの特徴層及び出力層を使用して下流タスクシーンを微調整し、最終的に微調整された生徒モデル、すなわち、ログインユーザーが所望する下流タスクが含まれる予めトレーニング言語モデル圧縮モデルを出力し、前記ログインユーザーがダウンロードできるように前記圧縮モデルを指定されたコンテナに出力し、前記プラットフォームの圧縮モデル出力ページに圧縮前後のモデルサイズの比較情報を表示し、
    前記推論アセンブリについては、ログインユーザーは前記プラットフォームから予めトレーニング圧縮モデルを取得し、ユーザーは前記自動圧縮アセンブリによって出力された圧縮モデルを使用して、実際のシーンのデータセットでログインユーザーがアップロードした自然言語処理の下流タスクの新たなデータを推論し、前記プラットフォームの圧縮モデル推論ページに圧縮前後の推論速度の比較情報を表示する
    ことを特徴とするプラットフォーム。
JP2022570738A 2020-12-15 2020-12-21 マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法及びプラットフォーム Active JP7381814B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011470331.3A CN112232511B (zh) 2020-12-15 2020-12-15 面向多任务的预训练语言模型自动压缩方法及平台
CN202011470331.3 2020-12-15
PCT/CN2020/138016 WO2022126683A1 (zh) 2020-12-15 2020-12-21 面向多任务的预训练语言模型自动压缩方法及平台

Publications (2)

Publication Number Publication Date
JP2023519770A JP2023519770A (ja) 2023-05-12
JP7381814B2 true JP7381814B2 (ja) 2023-11-16

Family

ID=81942583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022570738A Active JP7381814B2 (ja) 2020-12-15 2020-12-21 マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法及びプラットフォーム

Country Status (3)

Country Link
US (1) US11526774B2 (ja)
JP (1) JP7381814B2 (ja)
GB (1) GB2619569A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230259716A1 (en) * 2022-02-14 2023-08-17 International Business Machines Corporation Neural architecture search of language models using knowledge distillation
CN115348324B (zh) * 2022-10-19 2023-01-31 北京中科海芯科技有限公司 一种最优化调度策略的确定方法及装置和电子设备
CN117152788B (zh) * 2023-05-08 2024-10-01 东莞理工学院 基于知识蒸馏与多任务自监督学习的骨架行为识别方法
CN116468131B (zh) * 2023-06-19 2023-09-01 成都市奇点软件有限公司 一种基于阶段性再训练的ai驱动项目自动化方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766142A (zh) 2019-10-30 2020-02-07 北京百度网讯科技有限公司 模型生成方法和装置
CN111291836A (zh) 2020-03-31 2020-06-16 中国科学院计算技术研究所 一种生成学生网络模型的方法
CN111611377A (zh) 2020-04-22 2020-09-01 淮阴工学院 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN111767711A (zh) 2020-09-02 2020-10-13 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3775706A4 (en) * 2018-04-02 2021-12-29 LifeAire Systems, LLC Medical residential and laboratory uses of purified air
US11487997B2 (en) * 2018-10-04 2022-11-01 Visa International Service Association Method, system, and computer program product for local approximation of a predictive model
CN110162018B (zh) * 2019-05-31 2020-11-24 天津开发区精诺瀚海数据科技有限公司 基于知识蒸馏与隐含层共享的增量式设备故障诊断方法
CN111062489B (zh) * 2019-12-11 2023-10-20 北京知道创宇信息技术股份有限公司 一种基于知识蒸馏的多语言模型压缩方法、装置
CN113743432B (zh) * 2020-05-29 2024-07-05 京东方科技集团股份有限公司 一种图像实体信息获取方法、设备、电子设备和存储介质
CN111737406B (zh) * 2020-07-28 2022-11-29 腾讯科技(深圳)有限公司 文本检索方法、装置及设备、文本检索模型的训练方法
US11755838B2 (en) * 2020-09-14 2023-09-12 Smart Information Flow Technologies, LLC Machine learning for joint recognition and assertion regression of elements in text
CN112347245A (zh) * 2020-09-29 2021-02-09 徐佳慧 面向投融资领域机构的观点挖掘方法、装置和电子设备
US11610393B2 (en) * 2020-10-02 2023-03-21 Adobe Inc. Knowledge distillation for neural networks using multiple augmentation strategies
CN112418291B (zh) * 2020-11-17 2024-07-26 平安科技(深圳)有限公司 一种应用于bert模型的蒸馏方法、装置、设备及存储介质
CN112465138A (zh) * 2020-11-20 2021-03-09 平安科技(深圳)有限公司 模型蒸馏方法、装置、存储介质及设备
CN112509555B (zh) * 2020-11-25 2023-05-23 平安科技(深圳)有限公司 方言语音识别方法、装置、介质及电子设备
CN112395892B (zh) * 2020-12-03 2022-03-18 内蒙古工业大学 基于指针生成网络实现占位符消歧的蒙汉机器翻译方法
CN112232511B (zh) * 2020-12-15 2021-03-30 之江实验室 面向多任务的预训练语言模型自动压缩方法及平台
CN112613273B (zh) * 2020-12-16 2022-09-23 上海交通大学 多语言bert序列标注模型的压缩方法及系统
CN112241455B (zh) * 2020-12-17 2021-05-04 之江实验室 基于多层级知识蒸馏预训练语言模型自动压缩方法及平台

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766142A (zh) 2019-10-30 2020-02-07 北京百度网讯科技有限公司 模型生成方法和装置
CN111291836A (zh) 2020-03-31 2020-06-16 中国科学院计算技术研究所 一种生成学生网络模型的方法
CN111611377A (zh) 2020-04-22 2020-09-01 淮阴工学院 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN111767711A (zh) 2020-09-02 2020-10-13 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台

Also Published As

Publication number Publication date
JP2023519770A (ja) 2023-05-12
US20220188658A1 (en) 2022-06-16
GB202214196D0 (en) 2022-11-09
GB2619569A (en) 2023-12-13
US11526774B2 (en) 2022-12-13

Similar Documents

Publication Publication Date Title
JP7381814B2 (ja) マルチタスク向けの予めトレーニング言語モデルの自動圧縮方法及びプラットフォーム
WO2022141754A1 (zh) 一种卷积神经网络通用压缩架构的自动剪枝方法及平台
WO2022126683A1 (zh) 面向多任务的预训练语言模型自动压缩方法及平台
WO2022126797A1 (zh) 基于多层级知识蒸馏预训练语言模型自动压缩方法及平台
Wang et al. Evolutionary extreme learning machine ensembles with size control
US11501171B2 (en) Method and platform for pre-trained language model automatic compression based on multilevel knowledge distillation
CN112163715B (zh) 生成式对抗网络的训练方法及装置、电力负荷预测方法
CN113255844B (zh) 基于图卷积神经网络交互的推荐方法及系统
CN110677284A (zh) 一种基于元路径的异构网络链路预测的方法
CN113033786B (zh) 基于时间卷积网络的故障诊断模型构建方法及装置
CN114648092A (zh) 一种个性化联邦学习加速方法、装置
CN115358485A (zh) 一种基于图自注意力机制与霍克斯过程的交通流预测方法
CN111222762A (zh) 太阳能电池板镀膜工艺状态监控及质量控制系统
CN116302088B (zh) 一种代码克隆检测方法、存储介质及设备
CN116993043A (zh) 一种电力设备故障溯源方法及装置
CN115660882A (zh) 社交网络中用户间关系预测方法及多头混合聚合图卷积网络
CN114943276A (zh) 基于树型注意力机制的深度知识追踪方法
CN111160557B (zh) 一种基于双代理增强学习路径搜索的知识表示学习方法
CN114742292A (zh) 面向知识追踪过程的双态协同演化预测学生未来表现方法
CN114139674A (zh) 行为克隆方法、电子设备、存储介质和程序产品
CN113408725A (zh) 基于复合熵的遗传算法参数优化方法、系统、设备及介质
CN112699271A (zh) 一种提升用户在视频网站留存时间的视频推荐系统方法
Qu et al. Two-stage coevolution method for deep CNN: A case study in smart manufacturing
Mei A GA-BP Neural Network Model for Students Examination Score Prediction
Chen Optimization of neural network based on improved genetic algorithm

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221118

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20221125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230815

R150 Certificate of patent or registration of utility model

Ref document number: 7381814

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150