JP7226514B2 - 事前訓練言語モデル、装置及びコンピュータ読み取り可能な記憶媒体 - Google Patents

事前訓練言語モデル、装置及びコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP7226514B2
JP7226514B2 JP2021207561A JP2021207561A JP7226514B2 JP 7226514 B2 JP7226514 B2 JP 7226514B2 JP 2021207561 A JP2021207561 A JP 2021207561A JP 2021207561 A JP2021207561 A JP 2021207561A JP 7226514 B2 JP7226514 B2 JP 7226514B2
Authority
JP
Japan
Prior art keywords
coding
gradient
model
coding layers
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021207561A
Other languages
English (en)
Other versions
JP2022099327A (ja
Inventor
シアオ ティエヌション
トォン イシュアヌ
ドォン ビヌ
ジアン シャヌシャヌ
ジャン ジィアシ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JP2022099327A publication Critical patent/JP2022099327A/ja
Application granted granted Critical
Publication of JP7226514B2 publication Critical patent/JP7226514B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)

Description

本発明は、自然言語処理(Natural Language Processing、NLP)における事前訓練言語モデル(Pre-trained Language Model、PLM)の技術分野に関し、特に、事前訓練言語モデルの微調整方法、装置、およびコンピュータ読み取り可能な記憶媒体に関する。
事前訓練モデルは画像処理分野で長い間適用されており、PLMの概念は2015年に最初に提案されたと考えられ、さまざまなタスクで優れた性能を達成するようになってきた。これまで、NLP分野においては、より一般的には、単語埋め込み(word embedding)技術を用いて、単語を多次元空間に埋め込み、且つ比較的に大きなコーパスで訓練した後、単語と単語間の特定の関係の捕捉に用いられていた。一般的に使用される単語ベクトル訓練モデルは、Word2vec及びGloVe等がある。単語埋め込みは、下流モデルの第一層の埋め込み層を初期化し、他の機能層を追加し、モデル全体の構築を行うことに用いることができる。ただし、初期の単語埋め込み方法では、各単語のコンテキストの情報が保持されず、限界があった。
事前訓練言語モデル(Pre-trained Language Model、PLM)は、人々の生活に出現した大量のテキストを用いて訓練し、これらのテキストにおける各単語や文字の出現確率分布をモデルに学習させることにより、これらのテキスト分布に一致するモデルをモデリングする。また、言語モデルは通常、コンテキストに基づいて隣接する単語や文字が何であるかを予測し、訓練タスクによってはいくつかの違いがあるため、言語モデルのコーパスのラベルがそのコンテキストであり、改めてラベル付けを行う必要がないことから、ほぼ無制限に大規模なコーパスを用いて言語モデルを訓練し、豊かな語義知識を学習させることができる。コーパスの規模が大きいため、事前訓練言語モデルは強力な能力を取得し、このような事前訓練言語モデルを使用することにより、下流の関連タスクの性能を大幅に向上させるとともに、訓練の難易度を低下させることができる。現在のシーンの事前訓練言語モデルは、言語モデルからの埋め込み(Embeddings from Language Models、ELMo)、生成式の事前訓練(Generative Pre-Training、GPT/GPT2)、及びトランスフォーマ(Transformer)からの双方向エンコーダ表現(Bidirectional EnCoder Representations from Transformers、BERT)等のモデルがある。
事前訓練言語モデルの取得後は、事前訓練されたモデルパラメータを用いて下流タスクのネットワーク構造を初期化することができ、このように事前訓練によって学習した言語学的知識が下流タスクに導入されることになる。通常、特定の下流タスク解決にモデルを適応させるためには、モデルに対してネットワークパラメータの微調整(Fine-Tuning)を行い、モデルの構造変換を行う必要がある。図1に示すように、事前訓練言語モデルの微調整フローは、一般的に第1の段階と第2の段階のウォームアップ(warm up)訓練と標準訓練を含む。ウォームアップ訓練終了後に標準訓練に進み、所定の訓練終了条件まで訓練した後、訓練を終了する。通常、ウォームアップ訓練工程では、標準訓練に比べて、事前訓練言語モデルへの大幅な調整が行われ、モデルパラメータに大きな調整が生じる。これにより、事前訓練言語モデルは、事前訓練段階で学習した汎用言語知識が消失するおそれがあるため、前記微調整プロセスでは、如何に汎用言語知識の保持と下流タスク適応モデルの取得の間のトレードオフを実現するかが、早急に解決すべき問題となる。
本発明の解決しようとする技術課題は、事前訓練言語モデルの汎用言語知識の保持と、下流タスク適応モデルの取得の間の良好なトレードオフが得られる事前訓練言語モデルの微調整方法、装置及びコンピュータ読み取り可能な記憶媒体を提供することである。
前記の技術課題を解決するために、本発明の実施形態においては、以下の技術的ソリューションを提供する。
本発明の実施形態においては、
事前に訓練された事前訓練言語モデルを取得し、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定するステップと、
前記事前訓練言語モデルを訓練し、且つ前記訓練中に毎回いずれかの符号化層のモデルパラメータを更新する前に、前記いずれかの符号化層の勾配ノルムを算出するステップと、
前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定するステップと、
を含む事前訓練言語モデルの微調整方法を提供する。
前記方法は、さらに、
今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定した場合は、前記いずれかの符号化層のモデルパラメータの勾配に基づき、前記いずれかの符号化層のモデルパラメータを更新するステップと、
今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定した場合は、前記いずれかの符号化層のモデルパラメータの更新を拒否するステップと、
をさらに含んでもよい。
また、前記いずれかの符号化層の勾配ノルムを算出することは、
前記いずれかの符号化層の各モデルパラメータの勾配の二乗和を算出し、前記いずれかの符号化層の勾配ノルムを得ることと、
前記いずれかの符号化層の各モデルパラメータの絶対値の和を算出し、前記いずれかの符号化層の勾配ノルムを得ることと、
前記いずれかの符号化層の各モデルパラメータの絶対値のうちの最大値を前記いずれかの符号化層の勾配ノルムとして決定すること、
のいずれかの方式によって行われてもよい。
また、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定することは、
予め設定された閾値関数に基づき、各符号化層の勾配閾値を算出することを含み、前記閾値関数の入力が、符号化層のシーケンス番号であり、前記閾値関数の出力が、前記符号化層の勾配閾値であってもよい。
また、前記符号化層のシーケンス番号が、前記事前訓練言語モデルの入力層から出力層までの方向順に番号付けされ、前記閾値関数の出力は、前記閾値関数の入力と正の相関があるようにしてもよい。
また、前記勾配ノルムが非負の値であってもよい。
本発明の実施形態においては、さらに、
事前に訓練された事前訓練言語モデルを取得し、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定する決定モジュールと、
前記事前訓練言語モデルを訓練し、且つ前記訓練中に毎回いずれかの符号化層のモデルパラメータを更新する前に、前記いずれかの符号化層の勾配ノルムを算出する算出モジュールと、
前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定する判断モジュールと、
を含む事前訓練言語モデルの微調整装置を提供する。
また、前記事前訓練言語モデルの微調整装置は、
前記判断モジュールにより、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定した場合、前記いずれかの符号化層のモデルパラメータの勾配に基づき、前記いずれかの符号化層のモデルパラメータを更新し、前記判断モジュールにより、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定した場合は、前記いずれかの符号化層のモデルパラメータの更新を拒否する更新モジュールと、
をさらに含んでもよい。
また、前記算出モジュールは、
前記いずれかの符号化層の各モデルパラメータの勾配の二乗和を算出し、前記いずれかの符号化層の勾配ノルムを得ることと、
前記いずれかの符号化層の各モデルパラメータの絶対値の和を算出し、前記いずれかの符号化層の勾配ノルムを得ることと、
前記いずれかの符号化層の各モデルパラメータの絶対値のうちの最大値を、前記いずれかの符号化層の勾配ノルムとして決定すること、
のいずれかの方式によって、前記いずれかの符号化層の勾配ノルムを算出するようにしてもよい。
また、前記決定モジュールは、さらに、予め設定された閾値関数に基づき、各符号化層の勾配閾値を算出し、前記閾値関数の入力が、符号化層のシーケンス番号であり、前記閾値関数の出力が、前記符号化層の勾配閾値であるようにしてもよい。
また、前記符号化層のシーケンス番号は、前記事前訓練言語モデルの入力層から出力層までの方向順に番号付けされ、前記閾値関数の出力は、前記閾値関数の入力と正の相関があるようにしてもよい。
本発明の実施形態においては、さらに、
プロセッサと、
コンピュータプログラム命令が記憶されているメモリと、を有し、
前記コンピュータプログラム命令が前記プロセッサにより実行される時、前記プロセッサに、
事前に訓練された事前訓練言語モデルを取得し、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定するステップと、
前記事前訓練言語モデルを訓練し、且つ前記訓練中に毎回いずれかの符号化層のモデルパラメータを更新する前に、前記いずれかの符号化層の勾配ノルムを算出するステップと、
前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定するステップを実施させる、
事前訓練言語モデルの微調整装置を提供する。
本発明の実施形態においては、さらに
前記プロセッサにより実行される時に、前記事前訓練言語モデルの微調整方法のステップを実施するコンピュータプログラムが記憶されたことを特徴とするコンピュータ読み取り可能な記憶媒体を提供する。
本発明の実施形態においては、各符号化層に対応する勾配閾値を設定し、符号化層の勾配ノルムが該閾値未満であるか否かにより、前記符号化層に対してモデルパラメータの更新を行う必要があるか否かを判断し、モデルパラメータの過度の調整を回避することにより、事前訓練言語モデルの汎用言語知識の保持と、訓練による下流タスク適応モデルの取得の間の良好なトレードオフを実現することができ、モデルに多くの汎用言語知識を保持させ、モデルの性能を向上させることができる。
従来技術の事前訓練言語モデルの微調整工程の概略図である。 本発明の実施形態における事前訓練言語モデルの微調整方法のフロー概略図である。 本発明の実施形態における事前訓練言語モデルの微調整方法の他のフロー概略図である。 本発明の実施形態による事前訓練言語モデルの一構造概略図である。 本発明の実施形態による閾値関数の一例示図である。 本発明の実施形態における事前訓練言語モデルの微調整装置の一構造ブロック図である。 本発明の実施形態における事前訓練言語モデルの微調整装置の他の構造ブロック図である。 本発明の実施形態における事前訓練言語モデルの微調整装置のさらに他の構造ブロック図である。
以下、添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。添付図面に本発明の例示的な実施形態を示しているが、本発明は、種々の形態で実施可能であり、ここに述べた実施形態に限定されるべきでないことを理解されたい。逆にこれらの実施形態は、本発明へのより完全な理解を可能にし、本発明の範囲を当業者に完全に伝えるために提供されるものである。
本願の明細書および特許請求の範囲における「第1」、「第2」等の用語は、類似のオブジェクトを区別するために用いられ、必ずしも特定の順序や優先順位を説明するために使用されるわけではない。このように用いられるデータは、本明細書に記載された本願の実施形態が、例えば、本明細書に図示または記載されたもの以外の順序で実施できるように、適切な場合に互換可能であることを理解されたい。さらに、「含む」および「有する」という用語およびそれらの用語の変形は、非排他的な包含をカバーすることを意図しており、例えば、一連のステップまたはユニットを含むプロセス、方法、システム、製品、または装置は、必ずしも明示的に列挙されたこれらのステップまたはユニットに限定されるものではなく、明確に列挙されていない、またはこれらのプロセス、方法、製品、または装置に固有の他のステップまたはユニットを含んでもよい。明細書および特許請求の範囲における「および/または」は、連接した対象の少なくとも1つを表している。
以下の説明は、例示的なものであり、特許請求の範囲に記載された範囲、適用性、または構成を限定するものではない。本開示の精神および範囲から逸脱することなく、議論した要素の機能および配置に変更を加えることができる。種々の例では、必要に応じて、様々な手順や構成要素を省略、置換、または追加することができる。例えば、記載された方法は、記載されたものとは異なる順序で実行することができ、様々なステップを追加、省略、または組み合わせることができる。さらに、特定の例を参照して説明した特徴は、他の例における組み合わせが可能である。
背景技術で説明されているように、事前訓練言語モデルの微調整工程では、下流タスクに応じたモデルパラメータの調整が必要となる。ただし、モデルパラメータの調整範囲が大きすぎると、モデルの事前訓練段階で学習した汎用言語知識の破棄や、遺失を引き起こし、モデルのパフォーマンスに影響を及ぼすことになる。
本発明の実施形態は、事前訓練言語モデルの汎用言語知識の保持と、訓練による下流タスク適応モデルの取得との良好なトレードオフを実現し、モデルに多くの汎用言語知識を保持させ、かつモデルの性能を向上させるために、図2に示す事前訓練言語モデルの微調整方法を提供する。
図2に示すように、ステップ201において、事前訓練された事前訓練言語モデルを取得し、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定する。
ここで、前記事前訓練言語モデルは、事前訓練段階の訓練によって得られたモデルであり、前記事前訓練言語モデルは、通常、大量のテキスト訓練によって得られ、学習によって多くの汎用言語知識が得られる。具体的には、事前訓練言語モデルは、ELMoモデル、GPT/GPT2モデル、またはBERTモデル等であってもよいが、本発明の実施形態は、特にこれらに限定されない。
前記事前訓練言語モデルには、通常、入力層と出力層が含まれ、入力層と出力層の間には、複数の符号化層がある。本発明の実施形態は、前記ステップ201において、各符号化層の勾配閾値を決定し、後続ステップの判断に用いる。
ステップ202において、事前訓練言語モデルを具体的な下流タスクに適用する場合は、下流タスクに応じて事前訓練言語モデルを微調整する必要があり、具体的には、訓練サンプルを用いて事前訓練言語モデルを訓練し、モデルパラメータを調整することができる。該微調整プロセスは、一般的にウォームアップ訓練段階と標準訓練段階を含む。標準訓練段階に比べて、ウォームアップ訓練段階では、一般的にモデルパラメータが大幅に調整される。
例えば、微調整工程において、事前訓練言語モデルに対して10000回の訓練を行い、前の2000回がウォームアップ訓練であり、後の8000回が標準訓練となる。通常、二つの段階の訓練サンプルは異なり、例えば、ウォームアップ訓練段階に用いられる訓練サンプルの複雑度は、標準訓練段階の訓練サンプルの複雑度よりも低くなる。具体的には、ウォームアップ訓練段階の訓練サンプルのテキスト長は、標準訓練段階の訓練サンプルのテキスト長よりも小さくなる。また、ウォームアップ訓練段階のモデルの学習率は、訓練工程の進行に伴って徐々に増加してもよい。
好ましくは、ウォームアップ訓練段階のモデルパラメータに対する調整幅が大きいことを考慮し、本発明の実施形態は微調整工程におけるウォームアップ訓練段階に適用することができる。当然ながら、標準訓練段階に本発明の実施形態の方法を実行することもでき、これに対して本発明は特に限定しない。
ステップ202において、具体的な下流タスクの訓練サンプルを利用し、事前訓練言語モデルを訓練し、訓練工程においてモデルパラメータを調整(微調整)することができる。複数回の反復訓練を行う可能性があるため、毎回の反復訓練が終了した後、通常、符号化層のモデルパラメータの更新を行う必要がある。モデルパラメータの過度の調整を回避するために、本発明の実施形態においては、各符号化層のモデルパラメータ調整を行う前に、該符号化層の勾配ノルムを算出する。前記勾配ノルムは、該符号化層のモデルパラメータの勾配変化の程度を表すものであり、通常は、符号化層の勾配が大きいほど、勾配ノルムは大きくなる。勾配ノルムは、通常、非負の値である。
ステップ203において、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定する。
本発明の実施形態では、ステップ203において、前記いずれかの符号化層の勾配ノルムと前記いずれかの符号化層の勾配閾値との大小関係を比較することにより、今回反復訓練終了後に、前記いずれかの符号化層のモデルパラメータを更新するか否かを決定する。通常、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定する。
以上のステップにより、本発明の実施形態では、事前訓練言語モデルの微調整工程において、毎回いずれかの符号化層のモデルパラメータを更新する前に、勾配閾値によって該符号化層のモデルパラメータの調整幅が過度に大きいかを判断し、大きすぎる場合は、該符号化層のモデルパラメータの調整を拒否することにより、事前訓練言語モデルの汎用言語知識の保持と、訓練による下流タスク適応モデルの取得との良好なトレードオフを得ることができ、モデルに多くの汎用言語知識を保持させ、さらにモデルの性能を向上させることができる。
図3に示すように、本発明の実施形態による他の事前訓練言語モデルの微調整方法は、以下の通りである。
ステップ301において、事前に訓練された事前訓練言語モデルを取得し、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定する。
ステップ302において、前記事前訓練言語モデルを訓練し、且つ前記訓練中に毎回いずれかの符号化層のモデルパラメータを更新する前に、前記いずれかの符号化層の勾配ノルムを算出する。
ステップ303において、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定する。
以上のステップ301~303は、図2におけるステップ201~203と類似し、紙面を節約するため、ここでは説明を省略する。
ステップ304において、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定した場合、前記いずれかの符号化層のモデルパラメータの勾配に基づき、前記いずれかの符号化層のモデルパラメータを更新する。
今回のモデルパラメータを更新する必要があると決定した場合、本発明の実施形態では、符号化層のモデルパラメータの勾配に基づき、モデルパラメータの更新を行うことができる。更新が完了した後、現在、微調整トレーニングの事前設定された終了条件を満たしている場合は、フローを終了し、それ以外の場合は、次のラウンドの反復訓練を続行する。
ステップ305において、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定した場合は、前記いずれかの符号化層のモデルパラメータ更新を拒否する。
今回モデルパラメータを更新する必要がないと決定した場合は、本発明の実施形態では、今回のモデルパラメータ更新を拒否する。その後、現在は微調整トレーニングの事前設定された終了条件を満たしているか否かを判断し、満たしている場合は、フローを終了し、それ以外の場合は、次のラウンドの反復訓練を続行する。
図4は、事前訓練言語モデルの構造概略図を示し、入力層、出力層及び入力層と出力層間に位置する多層符号化層を含んでいる。通常、入力層に近い符号化層ほど、より多くの汎用言語知識、例えば、文法構造、品詞特性等を学習し、出力層に近い符号化層ほど、より多くの特定の下流タスクに関連する知識を学習する。このため、入力層に近い符号化層ほど、そのモデルパラメータの勾配閾値が小さくなり、出力層に近い符号化層ほど、そのモデルパラメータの勾配閾値が大きくなる。このように、入力層に近い符号化層により多くの汎用言語知識を保留させ、出力層に近い符号化層により多くのタスク関連知識を学習させることができ、それにより、事前訓練言語モデルの汎用言語知識の保留と、訓練による下流タスク適応モデルの取得との良好なトレードオフが得られる。
本発明の実施形態では、以上のステップ201及び301において、予め設定された閾値関数に基づき、各符号化層の勾配閾値を算出することができ、ここで、前記閾値関数の入力は符号化層のシーケンス番号であり、前記閾値関数の出力は前記符号化層の勾配閾値である。
前記符号化層のシーケンス(順序)番号は、前記事前訓練言語モデルの入力層から出力層までの方向の順に番号付けされ、例えば、順次、符号化層1、符号化層2、…、符号化層nと番号付けされ、前記閾値関数の出力が、前記閾値関数の入力と正の相関があるようにすることで、入力層に近い符号化層ほど、そのモデルパラメータの勾配閾値が小さくなり、出力層に近い符号化層ほど、そのモデルパラメータの勾配閾値が大きくなる。また、前記勾配ノルムは、通常、非負の値である。図5は閾値関数の一例を示し、該例においては、前記閾値関数の出力する勾配閾値と入力される符号化層のシーケンス番号との間は線形関係であり、且つ出力は入力の増大に伴って増大する。
以上のステップ202及び302において、本発明の実施形態では、以下のいずれかの方式で、前記符号化層の勾配ノルムを算出することができる。
方式1:前記いずれかの符号化層の各モデルパラメータの勾配の二乗和を算出し、前記いずれかの符号化層の勾配ノルムを得る。
方式2:前記いずれかの符号化層の各モデルパラメータの絶対値の和を算出し、前記いずれかの符号化層の勾配ノルムを得る。
方式3:前記いずれかの符号化層の各モデルパラメータの絶対値のうちの最大値を決定し、前記いずれかの符号化層の勾配ノルムとする。
当然のことながら、本発明の実施形態では、さらに、例えば、前記いずれかの符号化層の各モデルパラメータの絶対値の平均値を算出し、前記いずれかの符号化層の勾配ノルムとするか、予め設定されたパラメータ重みに応じて、前記いずれかの符号化層の各モデルパラメータの絶対値に対して重み付け加算を行い、前記いずれかの符号化層の勾配ノルムを得る、等の他の算出方式を用いて前記勾配ノルムを算出することができる。これらの方式はいずれも本発明に適用することができ、ここでは一々例を挙げて説明しない。
以上の事前訓練言語モデルの微調整方法に基づいて、本発明の実施形態では、さらに以下のモジュールを含む事前訓練言語モデルの微調整装置を提供する。図6に示すように、決定モジュール61は、予め訓練された事前訓練言語モデルを取得し、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定する。
算出モジュール62は、前記事前訓練言語モデルを訓練し、且つ前記訓練中に毎回いずれかの符号化層のモデルパラメータを更新する前に、前記いずれかの符号化層の勾配ノルムを算出する。
判断モジュール63は、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定する。
以上のモデルにより、本発明の実施形態の微調整装置は、事前訓練言語モデルの汎用言語知識の保留と、訓練による下流タスク適応モデルの取得との間の良好なトレードオフを得ることができ、モデルにより多くの汎用言語知識を保留させ、モデルの性能を向上させることができる。
任意選択的に、図7に示すように、本発明による他の事前訓練言語モデルの微調整装置は、図6におけるモジュールを含む以外に、さらに以下のものを含む。
更新モジュール64は、前記判断モジュールが今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定した場合、前記いずれかの符号化層のモデルパラメータの勾配に基づき、前記いずれかの符号化層のモデルパラメータを更新し、前記判断モジュールが今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定した場合は、前記いずれかの符号化層のモデルパラメータの更新を拒否する。
任意選択的に、図6又は図7における前記算出モジュール62は、さらに、前記いずれかの符号化層の各モデルパラメータの勾配の二乗和を算出し、前記いずれかの符号化層の勾配ノルムを得ること、前記いずれかの符号化層の各モデルパラメータの絶対和値を算出し、前記いずれかの符号化層の勾配ノルムを得ること、前記いずれかの符号化層の各モデルパラメータの絶対和のうちの最大値を決定し、前記いずれかの符号化層の勾配ノルムとすることの以下のいずれかの方式によって、前記符号化層の勾配ノルムを算出する。
任意選択的に、図6又は図7における前記決定モジュール61は、さらに、予め設定された閾値関数に基づき、各符号化層の勾配閾値を算出し、ここで、前記閾値関数の入力は符号化層のシーケンス番号であり、前記閾値関数の出力は前記符号化層の勾配閾値である。
任意選択的に、前記符号化層のシーケンス番号は前記事前訓練言語モデルの入力層から出力層までの方向の順に番号付けされ、前記閾値関数の出力は前記閾値関数の入力と正の相関ある。
任意選択的に、前記勾配ノルムは非負の値である。
なお、該実施形態における装置は、前記図2又は図3に示される方法に対応する装置であり、前記各実施形態における実施方式は、いずれも該装置の実施形態に適用され、同じ技術的効果を達成することができる。本発明の実施形態による前記装置は、前記方法実施形態が実現する全ての方法ステップを実現することができ、且つ同じ技術的効果を達成することができ、ここでは、本実施形態における方法実施形態と同一の部分及び有益な効果についての具体的な説明は省略する。
図8を参照すると、本発明の実施形態では、さらに事前訓練言語モデルの微調整装置のハードウェア構成ブロック図を提供し、図8に示されたように、該事前訓練言語モデルの微調整装置800は、プロセッサ802、及びコンピュータプログラム命令が記憶されたメモリ804を有する。
前記コンピュータプログラム命令が前記プロセッサにより実行される時、前記プロセッサ802に、予め訓練された事前訓練言語モデルを取得し、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定するステップと、前記事前訓練言語モデルを訓練し、且つ前記訓練中に毎回いずれかの符号化層のモデルパラメータを更新する前に、前記いずれかの符号化層の勾配ノルムを算出するステップと、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定するステップと、を実行させる。
さらに、図8に示すように、該事前訓練言語モデルの微調整装置800は、さらにネットワークインターフェース801、入力装置803、ハードディスク805、及び表示装置806を含むことができる。
前記各インターフェースと装置との間は、バス構造によって相互接続することができる。バス構造は任意の数の相互接続されたバスとブリッジであってもよい。具体的にプロセッサ802で代表される1つ又は複数の計算能力を有するプロセッサであって、中央処理装置(CPU、Central Processing Unit)及び/又はグラフィックスプロセッサ(GPU、Graphics Processing Unit)を含み得る前記プロセッサと、メモリ804で代表される1つ又は複数のメモリの各種回路を接続することができる。バス構造は、さらに周辺機器、レギュレータ及び電力管理回路等のような様々な他の回路を接続することができる。理解できるように、バス構造は、これらのコンポーネント間の接続通信を実現することに用いられる。バス構造は、データバスを含む以外に、さらに電源バス、制御バス及び状態信号バスを含み、これらはいずれも当該分野で周知であるため、ここでは詳細に説明しない。
前記ネットワークインターフェース801は、ネットワーク(例えば、インターネット、ローカルネットワーク等)に接続することができ、ネットワークからデータ(例えば、訓練サンプル及び/又は事前訓練言語モデル)を受信し、且つ受信したデータをハードディスク805に記憶することができる。
前記入力装置803は、操作者が入力した各種コマンドを受信することができ、且つプロセッサ802に送信し実行に用いられるようにする。
前記入力装置803は、キーボード又はクリック装置(例えば、マウス、トラックボール、タッチパネル又はタッチスクリーン等)を含むことができる。
前記表示装置806は、プロセッサ802のコマンド実行による結果を表示することができ、例えば、事前訓練言語モデルの訓練の微調整進度等を表示する。
前記メモリ804は、オペレーティングシステムの実行に必要なプログラム及びデータ、及びプロセッサ802の演算過程における途中結果等のデータを記憶する。
理解できるように、本発明の実施形態におけるメモリ804は、揮発性メモリ又は不揮発性メモリであってもよく、又は揮発性と不揮発性メモリの両方を含んでもよい。不揮発性メモリは、読み出し専用メモリ(ROM)、プログラマブル読み出し専用メモリ(PROM)、消去可能プログラマブル読み出し専用メモリ(EPROM)、電気的消去可能プログラマブル読み出し専用メモリ(EEPROM)又はフラッシュメモリであってもよい。不揮発性メモリは、ランダムアクセスメモリ(RAM)であってもよく、外部キャッシュメモリとして用いられる。ここで説明された装置及び方法のメモリ804は、これら及び任意の他の適切なタイプのメモリを含むことを意図しているが、これらに限定されない。
いくつかの実施形態において、メモリ804は、オペレーティングシステム8041及びアプリケーションプログラム8042といった、要素、実行可能モジュール又はデータ構造、或いはそれらのサブセット、又はそれらの拡張セットを記憶する。
ここで、オペレーティングシステム8041は、例えば、フレーム層、コアライブラリ層、駆動層等の、各種システムプログラムを含み、各種基本サービスの実現及びハードウェアに基づくタスク処理に用いられる。アプリケーションプログラム8042は、例えば、ブラウザ(Browser)等の各種アプリケーションプログラムを含み、各種アプリケーションサービスの実現に用いられる。本発明の実施形態の方法を実現するプログラムはアプリケーションプログラム8042に含まれてもよい。
本発明の前記実施形態に開示された事前訓練言語モデルの微調整法は、プロセッサ802に応用されてもよく、又はプロセッサ802によって実現されてもよい。プロセッサ802は、集積回路チップであってもよく、信号の処理能力を有する。実現工程において、前記事前訓練言語モデルの微調整方法の各ステップは、プロセッサ802におけるハードウェアの集積論理回路又はソフトウェア形式の命令によって完了することができる。前記プロセッサ802は汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)又は他のプログラマブルロジックデバイス、ディスクリートゲート又はトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントであってもよく、本発明の実施形態に開示された各方法、ステップ及びロジックブロック図を実現又は実行することができる。汎用プロセッサはマイクロプロセッサであってもよく、又は、該プロセッサは任意の従来のプロセッサ等であってもよい。本発明の実施形態に関連して開示された方法のステップは、直接的にハードウェア復号化プロセッサの実行に具現してもよく、復号化プロセッサにおけるハードウェア及びソフトウェアモジュールの組み合わせによって実行されてもよい。ソフトウェアモジュールは、ランダムアクセスメモリ、フラッシュメモリ、読み出し専用メモリ、プログラマブル読み出し専用メモリ又は電気的消去可能プログラマブルメモリ、レジスタ等の当該分野で成熟した記憶媒体に位置してもよい。該記憶媒体はメモリ804に位置し、プロセッサ802はメモリ804における情報を読み取り、ハードウェアと組み合わせて前記方法のステップを完了する。
理解すべきことは、本明細書に記載のこれらの実施形態は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード又はそれらの組み合わせで実現可能である。ハードウェアで実現する場合、処理ユニットは1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブル論理装置(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、汎用プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、本明細書に記載の機能を実行するための他の電子ユニット又はそれらの組み合わせで実現することができる。
ソフトウェアで実現する場合、本明細書に記載の機能を実行するモジュール(例えば、工程、関数等)によって本明細書に記載の技術を実現することができる。ソフトウェアコードはメモリに記憶され且つプロセッサによって実行されてもよい。メモリはプロセッサ内又はプロセッサの外部で実施されてもよい。
具体的には、前記コンピュータプログラムがプロセッサ802によって実行される時に、さらに以下のステップを実施することができる。
今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定した場合、前記いずれかの符号化層のモデルパラメータの勾配に基づき、前記いずれかの符号化層のモデルパラメータを更新し、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定した場合、前記いずれかの符号化層のモデルパラメータを更新することを拒否する。
具体的には、前記コンピュータプログラムがプロセッサ802によって実行される時に、さらに以下のステップを実施することができる。
前記いずれかの符号化層の各モデルパラメータの勾配の二乗和を算出し、前記いずれかの符号化層の勾配ノルムを得ること、前記いずれかの符号化層の各モデルパラメータの絶対値の和を算出し、前記いずれかの符号化層の勾配ノルムを得ること、前記いずれかの符号化層の各モデルパラメータの絶対値のうちの最大値を決定し、前記いずれかの符号化層の勾配ノルムとすることの、いずれかの方式に基づき、前記いずれかの符号化層の勾配ノルムを算出する。
具体的には、前記コンピュータプログラムがプロセッサ802により実行される時に、さらに以下のステップを実現することができる。
予め設定された閾値関数に基づいて、各符号化層の勾配閾値を算出し、前記閾値関数の入力は符号化層のシーケンス番号であり、前記閾値関数の出力は前記符号化層の勾配閾値である。
具体的には、前記符号化層のシーケンス番号は、前記事前訓練言語モデルの入力層から出力層までの方向の順に番号付けされ、前記閾値関数の出力は前記閾値関数の入力と正の相関がある。
具体的には、前記勾配ノルムは非負の値である。
理解すべきことは、本発明の実施形態において、前記コンピュータプログラムがプロセッサ802により実行される時に、前記図2又は図3に示される方法実施形態の各工程を実現することができ、且つ同じ技術的効果を達成することができ、重複を避けるために、ここでは説明を省略する。
本発明のいくつかの実施形態においては、さらにコンピュータ読み取り可能な記憶媒体を提供し、該記憶媒体にプログラムが記憶され、該プログラムがプロセッサにより実行される時に、以下のステップ、すなわち、
事前に訓練された事前訓練言語モデルを取得し、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定するステップと、
前記事前訓練言語モデルを訓練し、且つ前記訓練中に毎回いずれかの符号化層のモデルパラメータを更新する前に、前記いずれかの符号化層の勾配ノルムを算出するステップと、
前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定するステップ、を実施する。
該プログラムはプロセッサにより実行される時に、前記事前訓練言語モデルの微調整方法におけるすべての実施方式を実現することができ、且つ同じ技術効果を達成することができ、重複を避けるために、ここでは説明を省略する。
当業者であれば、本明細書に開示された実施形態に関連して説明された各例のユニット及びアルゴリズムステップは、電子ハードウェア、又はコンピュータソフトウェアと電子ハードウェアとの組み合わせで実現可能であることが分かる。これらの機能がハードウェア方式で実行されるかソフトウェア方式で実行されるかは、技術的解決手段の特定のアプリケーション及び設計制約条件に依存する。当業者は各特定のアプリケーションに対して異なる方法を用いて記述された機能を実現することができるが、このような実現は本発明の範囲から逸脱するものではない。
当業者であれば明確に理解できるように、説明の便宜及び簡潔さのために、前述したシステム、装置及びユニットの具体的な動作工程は、前述した方法実施形態における対応の工程を参照することができ、ここでは詳細な説明を省略する。
本願の実施形態において、開示された装置及び手段は、他の方式で実施可能であることは理解すべきである。例えば、以上のように記載された装置実施形態は単に例示的なものであり、例えば、前記ユニットの分割は、単に論理機能の分割であり、実際に実施する時に他の分割方式を有することができ、例えば、複数のユニット又はアセンブリを組み合わせたり、他のシステムに統合したり、一部の機能を省略したり、実装しなかったりすることができる。他のポイントとして、表示又は議論された相互間の結合又は直接結合又は通信接続は、いくつかのインターフェース、装置又はユニットを介した間接結合又は通信接続であってもよく、電気的、力学的又は他の形式であってもよい。
前記分離部材として説明されたユニットは、物理的に分離されてもよく、ユニットとして表示された部材は、物理的ユニットであってもよく、又は物理的ユニットでなくてもよく、すなわち、一つの場所に位置してもよく、又は複数のネットワークユニットに分布してもよい。実際のニーズに応じて、そのうちの一部又は全部のユニットを選択して本発明の実施形態の解決手段の目的を実現することができる。
また、本発明の各実施形態における各機能ユニットは、一つの処理ユニットに集積されてもよく、各ユニットが単独で物理的に存在してもよく、二つ又は二つ以上のユニットが一つのユニットに集積されてもよい。
前記機能は、ソフトウェア機能ユニットの形式で実現され且つ独立した製品として販売又は使用される場合、一つのコンピュータ読み取り可能な記憶媒体に記憶されてもよい。
このような理解から、本発明の技術手段は、本質的に、或いは従来技術に寄与する部分または該技術手段一部は、ソフトウェア製品の形で具体化することができ、該コンピュータソフトウェア製品は、一つの記憶媒体に記憶され、一台のコンピュータ装置(パーソナルコンピュータ、サーバ、又はネットワーク装置等であってもよい)に本発明の各実施形態に記載の事前訓練言語モデルの微調整方法の全部又は一部のステップを実行させるための複数の命令を含む。また、前記記憶媒体は、USBメモリ、モバイルハードディスク、ROM、RAM、磁気ディスク又は光ディスク等の各種プログラムコードを記憶可能な媒体を含む。
以上のように、本発明の具体的な実施形態に過ぎず、本発明の保護範囲はこれに限定されるものではなく、当業者であれば本発明に開示された技術範囲内で容易に想到可能な変化又は置換は、いずれも本発明の保護範囲内に含まれるべきである。従って、本発明の保護範囲は特許請求の保護範囲を基準とすべきである。

Claims (15)

  1. 事前に訓練された事前訓練言語モデルを取得し、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定するステップと、
    前記事前訓練言語モデルに対して訓練を行い、且つ前記訓練中に毎回いずれかの符号化層のモデルパラメータを更新する前に、前記いずれかの符号化層の勾配ノルムを算出するステップと、
    前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定するステップと、
    を含む、ことを特徴とする事前訓練言語モデルの微調整方法。
  2. 今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定した場合は、前記いずれかの符号化層のモデルパラメータの勾配に基づき、前記いずれかの符号化層のモデルパラメータを更新するステップと、
    今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定した場合は、前記いずれかの符号化層のモデルパラメータの更新を拒否するステップと、
    をさらに含む、ことを特徴とする請求項1に記載の微調整方法。
  3. 前記いずれかの符号化層の各モデルパラメータの勾配の二乗和を算出し、前記いずれかの符号化層の勾配ノルムを得ることと、
    前記いずれかの符号化層の各モデルパラメータの絶対値の和を算出し、前記いずれかの符号化層の勾配ノルムを得ることと、
    前記いずれかの符号化層の各モデルパラメータの絶対値のうちの最大値を前記いずれかの符号化層の勾配ノルムとして決定することと、
    のいずれかの方式により、前記いずれかの符号化層の勾配ノルムを算出する、ことを特徴とする請求項1に記載の微調整方法。
  4. 前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定することが、
    予め設定された閾値関数に基づき、各符号化層の勾配閾値を算出することを含み、前記閾値関数の入力が、符号化層のシーケンス番号であり、前記閾値関数の出力が、前記符号化層の勾配閾値である、
    ことを特徴とする請求項1に記載の事前訓練言語モデルの微調整方法。
  5. 前記符号化層のシーケンス番号が、前記事前訓練言語モデルの入力層から出力層までの方向順に番号付けされ、前記閾値関数の出力は、前記閾値関数の入力と正の相関がある、
    ことを特徴とする請求項4に記載の事前訓練言語モデルの微調整方法。
  6. 前記勾配ノルムが非負の値である、
    ことを特徴とする請求項1から5のいずれか一項に記載の微調整方法。
  7. 事前に訓練された事前訓練言語モデルを取得し、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定する決定モジュールと、
    前記事前訓練言語モデルに対して訓練を行い、且つ前記訓練中に毎回いずれかの符号化層のモデルパラメータを更新する前に、前記いずれかの符号化層の勾配ノルムを算出する算出モジュールと、
    前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定する判断モジュールと、
    を含む、ことを特徴とする事前訓練言語モデルの微調整装置。
  8. 前記判断モジュールにより、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定した場合、前記いずれかの符号化層のモデルパラメータの勾配に基づき、前記いずれかの符号化層のモデルパラメータを更新し、前記判断モジュールにより、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定した場合は、前記いずれかの符号化層のモデルパラメータの更新を拒否する更新モジュールと、
    をさらに含む、ことを特徴とする請求項7に記載の微調整装置。
  9. 前記算出モジュールは、
    前記いずれかの符号化層の各モデルパラメータの勾配の二乗和を算出し、前記いずれかの符号化層の勾配ノルムを得ることと、
    前記いずれかの符号化層の各モデルパラメータの絶対値の和を算出し、前記いずれかの符号化層の勾配ノルムを得ることと、
    前記いずれかの符号化層の各モデルパラメータの絶対値のうちの最大値を、前記いずれかの符号化層の勾配ノルムとして決定することと、
    のいずれかの方式によって、前記いずれかの符号化層の勾配ノルムを算出する、ことを特徴とする請求項7に記載の微調整装置。
  10. 前記決定モジュールは、さらに、予め設定された閾値関数に基づき、各符号化層の勾配閾値を算出し、前記閾値関数の入力が、符号化層のシーケンス番号であり、前記閾値関数の出力が、前記符号化層の勾配閾値である、
    ことを特徴とする請求項7に記載の微調整装置。
  11. 前記符号化層のシーケンス番号は、前記事前訓練言語モデルの入力層から出力層までの方向順に番号付けされ、前記閾値関数の出力は、前記閾値関数の入力と正の相関がある、
    ことを特徴とする請求項10に記載の微調整装置。
  12. 前記勾配ノルムが非負の値である、
    ことを特徴とする請求項7から11のいずれか一項に記載の微調整装置。
  13. プロセッサと、
    前記プロセッサに接続され、且つコンピュータプログラムが記憶されているメモリと、を有し、
    前記プロセッサは、前記コンピュータプログラムを実行することによって、請求項1から6のいずれか一項に記載の事前訓練言語モデルの微調整方法を実現するように構成される、事前訓練言語モデルの微調整装置。
  14. コンピュータに、請求項1から6のいずれか一項に記載の事前訓練言語モデルの微調整方法を実行させるためのプログラム。
  15. 請求項14に記載のプログラムを記憶しているコンピュータ読み取り可能な記憶媒体。
JP2021207561A 2020-12-22 2021-12-21 事前訓練言語モデル、装置及びコンピュータ読み取り可能な記憶媒体 Active JP7226514B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011529711.X 2020-12-22
CN202011529711.XA CN114723064A (zh) 2020-12-22 2020-12-22 预训练语言模型的微调方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2022099327A JP2022099327A (ja) 2022-07-04
JP7226514B2 true JP7226514B2 (ja) 2023-02-21

Family

ID=78829342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021207561A Active JP7226514B2 (ja) 2020-12-22 2021-12-21 事前訓練言語モデル、装置及びコンピュータ読み取り可能な記憶媒体

Country Status (3)

Country Link
EP (1) EP4020305A1 (ja)
JP (1) JP7226514B2 (ja)
CN (1) CN114723064A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115438176B (zh) * 2022-11-08 2023-04-07 阿里巴巴达摩院(杭州)科技有限公司 下游任务模型生成及任务执行的方法和设备
CN115906918B (zh) * 2022-11-28 2024-05-17 北京百度网讯科技有限公司 预训练模型的微调方法及其装置
CN116186534B (zh) * 2022-12-23 2024-02-23 北京百度网讯科技有限公司 预训练模型的更新方法、装置及电子设备
CN117852627A (zh) * 2024-03-05 2024-04-09 湘江实验室 一种预训练模型微调方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019080232A (ja) 2017-10-26 2019-05-23 株式会社Preferred Networks 勾配圧縮装置、勾配圧縮方法及びプログラム
WO2020250451A1 (en) 2019-06-14 2020-12-17 Nec Corporation Transfer learning apparatus, transfer learning system, method of transfer learning, and storage medium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019080232A (ja) 2017-10-26 2019-05-23 株式会社Preferred Networks 勾配圧縮装置、勾配圧縮方法及びプログラム
WO2020250451A1 (en) 2019-06-14 2020-12-17 Nec Corporation Transfer learning apparatus, transfer learning system, method of transfer learning, and storage medium

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HOWARD, Jeremy, et al.,Universal Language Model Fine-tuning for Text Classification,arXiv,2018年05月23日

Also Published As

Publication number Publication date
JP2022099327A (ja) 2022-07-04
EP4020305A1 (en) 2022-06-29
CN114723064A (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
JP7226514B2 (ja) 事前訓練言語モデル、装置及びコンピュータ読み取り可能な記憶媒体
US20230206005A1 (en) Multi-turn dialogue response generation with autoregressive transformer models
CN113239705B (zh) 语义表示模型的预训练方法、装置、电子设备和存储介质
CN109753615B (zh) 预加载网页的方法和装置,存储介质和电子设备
CN110347873A (zh) 视频分类方法、装置、电子设备及存储介质
JP7079311B2 (ja) 機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体
JP6965951B2 (ja) ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体
CN112528655B (zh) 关键词生成方法、装置、设备及存储介质
JP2020522774A (ja) サーバ、金融時系列データの処理方法及び記憶媒体
US11113596B2 (en) Select one of plurality of neural networks
CN111597326B (zh) 生成商品描述文本的方法及装置
JP2020004382A (ja) 音声対話方法及び装置
CN111626065A (zh) 神经机器翻译模型的训练方法、装置及存储介质
CN114420102B (zh) 语音断句方法、装置、电子设备及存储介质
CN113626608B (zh) 增强语义的关系抽取方法、装置、计算机设备及存储介质
CN109727187B (zh) 用于调整多个感兴趣区域数据的存储位置的方法和装置
WO2021208715A1 (zh) 模型推理加速方法、装置、计算机设备及存储介质
CN113408070A (zh) 发动机参数的确定方法、装置、设备及存储介质
CN116975635A (zh) 参数预测模型的训练方法、参数预测方法和装置
CN117173269A (zh) 一种人脸图像生成方法、装置、电子设备和存储介质
CN116822629A (zh) 文本推理任务处理的方法、装置、设备以及存储介质
CN113468357B (zh) 一种图像描述文本生成方法及装置
CN114462679A (zh) 基于深度学习的网络流量预测方法、装置、设备及介质
CN114117051A (zh) 词性标注模型的训练方法、词性标注方法及电子设备
CN109377980B (zh) 一种音节切分方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230123

R151 Written notification of patent or utility model registration

Ref document number: 7226514

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151