JP7226514B2

JP7226514B2 - 事前訓練言語モデル、装置及びコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP7226514B2
Application number: JP2021207561A
Authority: JP
Inventors: シアオティエヌション; トォンイシュアヌ; ドォンビヌ; ジアンシャヌシャヌ; ジャンジィアシ
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2020-12-22
Filing date: 2021-12-21
Publication date: 2023-02-21
Anticipated expiration: 2041-12-21
Also published as: JP2022099327A; EP4020305A1; CN114723064A

Description

本発明は、自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ、ＮＬＰ）における事前訓練言語モデル（Ｐｒｅ－ｔｒａｉｎｅｄＬａｎｇｕａｇｅＭｏｄｅｌ、ＰＬＭ）の技術分野に関し、特に、事前訓練言語モデルの微調整方法、装置、およびコンピュータ読み取り可能な記憶媒体に関する。

事前訓練モデルは画像処理分野で長い間適用されており、ＰＬＭの概念は２０１５年に最初に提案されたと考えられ、さまざまなタスクで優れた性能を達成するようになってきた。これまで、ＮＬＰ分野においては、より一般的には、単語埋め込み（ｗｏｒｄｅｍｂｅｄｄｉｎｇ）技術を用いて、単語を多次元空間に埋め込み、且つ比較的に大きなコーパスで訓練した後、単語と単語間の特定の関係の捕捉に用いられていた。一般的に使用される単語ベクトル訓練モデルは、Ｗｏｒｄ２ｖｅｃ及びＧｌｏＶｅ等がある。単語埋め込みは、下流モデルの第一層の埋め込み層を初期化し、他の機能層を追加し、モデル全体の構築を行うことに用いることができる。ただし、初期の単語埋め込み方法では、各単語のコンテキストの情報が保持されず、限界があった。

事前訓練言語モデル（Ｐｒｅ－ｔｒａｉｎｅｄＬａｎｇｕａｇｅＭｏｄｅｌ、ＰＬＭ）は、人々の生活に出現した大量のテキストを用いて訓練し、これらのテキストにおける各単語や文字の出現確率分布をモデルに学習させることにより、これらのテキスト分布に一致するモデルをモデリングする。また、言語モデルは通常、コンテキストに基づいて隣接する単語や文字が何であるかを予測し、訓練タスクによってはいくつかの違いがあるため、言語モデルのコーパスのラベルがそのコンテキストであり、改めてラベル付けを行う必要がないことから、ほぼ無制限に大規模なコーパスを用いて言語モデルを訓練し、豊かな語義知識を学習させることができる。コーパスの規模が大きいため、事前訓練言語モデルは強力な能力を取得し、このような事前訓練言語モデルを使用することにより、下流の関連タスクの性能を大幅に向上させるとともに、訓練の難易度を低下させることができる。現在のシーンの事前訓練言語モデルは、言語モデルからの埋め込み（ＥｍｂｅｄｄｉｎｇｓｆｒｏｍＬａｎｇｕａｇｅＭｏｄｅｌｓ、ＥＬＭｏ）、生成式の事前訓練（ＧｅｎｅｒａｔｉｖｅＰｒｅ－Ｔｒａｉｎｉｎｇ、ＧＰＴ／ＧＰＴ２）、及びトランスフォーマ（Ｔｒａｎｓｆｏｒｍｅｒ）からの双方向エンコーダ表現（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎＣｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ、ＢＥＲＴ）等のモデルがある。

事前訓練言語モデルの取得後は、事前訓練されたモデルパラメータを用いて下流タスクのネットワーク構造を初期化することができ、このように事前訓練によって学習した言語学的知識が下流タスクに導入されることになる。通常、特定の下流タスク解決にモデルを適応させるためには、モデルに対してネットワークパラメータの微調整（Ｆｉｎｅ－Ｔｕｎｉｎｇ）を行い、モデルの構造変換を行う必要がある。図１に示すように、事前訓練言語モデルの微調整フローは、一般的に第１の段階と第２の段階のウォームアップ（ｗａｒｍｕｐ）訓練と標準訓練を含む。ウォームアップ訓練終了後に標準訓練に進み、所定の訓練終了条件まで訓練した後、訓練を終了する。通常、ウォームアップ訓練工程では、標準訓練に比べて、事前訓練言語モデルへの大幅な調整が行われ、モデルパラメータに大きな調整が生じる。これにより、事前訓練言語モデルは、事前訓練段階で学習した汎用言語知識が消失するおそれがあるため、前記微調整プロセスでは、如何に汎用言語知識の保持と下流タスク適応モデルの取得の間のトレードオフを実現するかが、早急に解決すべき問題となる。

本発明の解決しようとする技術課題は、事前訓練言語モデルの汎用言語知識の保持と、下流タスク適応モデルの取得の間の良好なトレードオフが得られる事前訓練言語モデルの微調整方法、装置及びコンピュータ読み取り可能な記憶媒体を提供することである。

前記の技術課題を解決するために、本発明の実施形態においては、以下の技術的ソリューションを提供する。

本発明の実施形態においては、
事前に訓練された事前訓練言語モデルを取得し、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定するステップと、
前記事前訓練言語モデルを訓練し、且つ前記訓練中に毎回いずれかの符号化層のモデルパラメータを更新する前に、前記いずれかの符号化層の勾配ノルムを算出するステップと、
前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定するステップと、
を含む事前訓練言語モデルの微調整方法を提供する。

前記方法は、さらに、
今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定した場合は、前記いずれかの符号化層のモデルパラメータの勾配に基づき、前記いずれかの符号化層のモデルパラメータを更新するステップと、
今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定した場合は、前記いずれかの符号化層のモデルパラメータの更新を拒否するステップと、
をさらに含んでもよい。

また、前記いずれかの符号化層の勾配ノルムを算出することは、
前記いずれかの符号化層の各モデルパラメータの勾配の二乗和を算出し、前記いずれかの符号化層の勾配ノルムを得ることと、
前記いずれかの符号化層の各モデルパラメータの絶対値の和を算出し、前記いずれかの符号化層の勾配ノルムを得ることと、
前記いずれかの符号化層の各モデルパラメータの絶対値のうちの最大値を前記いずれかの符号化層の勾配ノルムとして決定すること、
のいずれかの方式によって行われてもよい。

また、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定することは、
予め設定された閾値関数に基づき、各符号化層の勾配閾値を算出することを含み、前記閾値関数の入力が、符号化層のシーケンス番号であり、前記閾値関数の出力が、前記符号化層の勾配閾値であってもよい。

また、前記符号化層のシーケンス番号が、前記事前訓練言語モデルの入力層から出力層までの方向順に番号付けされ、前記閾値関数の出力は、前記閾値関数の入力と正の相関があるようにしてもよい。

また、前記勾配ノルムが非負の値であってもよい。

本発明の実施形態においては、さらに、
事前に訓練された事前訓練言語モデルを取得し、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定する決定モジュールと、
前記事前訓練言語モデルを訓練し、且つ前記訓練中に毎回いずれかの符号化層のモデルパラメータを更新する前に、前記いずれかの符号化層の勾配ノルムを算出する算出モジュールと、
前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定する判断モジュールと、
を含む事前訓練言語モデルの微調整装置を提供する。

また、前記事前訓練言語モデルの微調整装置は、
前記判断モジュールにより、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定した場合、前記いずれかの符号化層のモデルパラメータの勾配に基づき、前記いずれかの符号化層のモデルパラメータを更新し、前記判断モジュールにより、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定した場合は、前記いずれかの符号化層のモデルパラメータの更新を拒否する更新モジュールと、
をさらに含んでもよい。

また、前記算出モジュールは、
前記いずれかの符号化層の各モデルパラメータの勾配の二乗和を算出し、前記いずれかの符号化層の勾配ノルムを得ることと、
前記いずれかの符号化層の各モデルパラメータの絶対値の和を算出し、前記いずれかの符号化層の勾配ノルムを得ることと、
前記いずれかの符号化層の各モデルパラメータの絶対値のうちの最大値を、前記いずれかの符号化層の勾配ノルムとして決定すること、
のいずれかの方式によって、前記いずれかの符号化層の勾配ノルムを算出するようにしてもよい。

また、前記決定モジュールは、さらに、予め設定された閾値関数に基づき、各符号化層の勾配閾値を算出し、前記閾値関数の入力が、符号化層のシーケンス番号であり、前記閾値関数の出力が、前記符号化層の勾配閾値であるようにしてもよい。

また、前記符号化層のシーケンス番号は、前記事前訓練言語モデルの入力層から出力層までの方向順に番号付けされ、前記閾値関数の出力は、前記閾値関数の入力と正の相関があるようにしてもよい。

本発明の実施形態においては、さらに、
プロセッサと、
コンピュータプログラム命令が記憶されているメモリと、を有し、
前記コンピュータプログラム命令が前記プロセッサにより実行される時、前記プロセッサに、
事前に訓練された事前訓練言語モデルを取得し、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定するステップと、
前記事前訓練言語モデルを訓練し、且つ前記訓練中に毎回いずれかの符号化層のモデルパラメータを更新する前に、前記いずれかの符号化層の勾配ノルムを算出するステップと、
前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定するステップを実施させる、
事前訓練言語モデルの微調整装置を提供する。

本発明の実施形態においては、さらに
前記プロセッサにより実行される時に、前記事前訓練言語モデルの微調整方法のステップを実施するコンピュータプログラムが記憶されたことを特徴とするコンピュータ読み取り可能な記憶媒体を提供する。

本発明の実施形態においては、各符号化層に対応する勾配閾値を設定し、符号化層の勾配ノルムが該閾値未満であるか否かにより、前記符号化層に対してモデルパラメータの更新を行う必要があるか否かを判断し、モデルパラメータの過度の調整を回避することにより、事前訓練言語モデルの汎用言語知識の保持と、訓練による下流タスク適応モデルの取得の間の良好なトレードオフを実現することができ、モデルに多くの汎用言語知識を保持させ、モデルの性能を向上させることができる。

従来技術の事前訓練言語モデルの微調整工程の概略図である。本発明の実施形態における事前訓練言語モデルの微調整方法のフロー概略図である。本発明の実施形態における事前訓練言語モデルの微調整方法の他のフロー概略図である。本発明の実施形態による事前訓練言語モデルの一構造概略図である。本発明の実施形態による閾値関数の一例示図である。本発明の実施形態における事前訓練言語モデルの微調整装置の一構造ブロック図である。本発明の実施形態における事前訓練言語モデルの微調整装置の他の構造ブロック図である。本発明の実施形態における事前訓練言語モデルの微調整装置のさらに他の構造ブロック図である。

以下、添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。添付図面に本発明の例示的な実施形態を示しているが、本発明は、種々の形態で実施可能であり、ここに述べた実施形態に限定されるべきでないことを理解されたい。逆にこれらの実施形態は、本発明へのより完全な理解を可能にし、本発明の範囲を当業者に完全に伝えるために提供されるものである。

本願の明細書および特許請求の範囲における「第１」、「第２」等の用語は、類似のオブジェクトを区別するために用いられ、必ずしも特定の順序や優先順位を説明するために使用されるわけではない。このように用いられるデータは、本明細書に記載された本願の実施形態が、例えば、本明細書に図示または記載されたもの以外の順序で実施できるように、適切な場合に互換可能であることを理解されたい。さらに、「含む」および「有する」という用語およびそれらの用語の変形は、非排他的な包含をカバーすることを意図しており、例えば、一連のステップまたはユニットを含むプロセス、方法、システム、製品、または装置は、必ずしも明示的に列挙されたこれらのステップまたはユニットに限定されるものではなく、明確に列挙されていない、またはこれらのプロセス、方法、製品、または装置に固有の他のステップまたはユニットを含んでもよい。明細書および特許請求の範囲における「および／または」は、連接した対象の少なくとも１つを表している。

以下の説明は、例示的なものであり、特許請求の範囲に記載された範囲、適用性、または構成を限定するものではない。本開示の精神および範囲から逸脱することなく、議論した要素の機能および配置に変更を加えることができる。種々の例では、必要に応じて、様々な手順や構成要素を省略、置換、または追加することができる。例えば、記載された方法は、記載されたものとは異なる順序で実行することができ、様々なステップを追加、省略、または組み合わせることができる。さらに、特定の例を参照して説明した特徴は、他の例における組み合わせが可能である。

背景技術で説明されているように、事前訓練言語モデルの微調整工程では、下流タスクに応じたモデルパラメータの調整が必要となる。ただし、モデルパラメータの調整範囲が大きすぎると、モデルの事前訓練段階で学習した汎用言語知識の破棄や、遺失を引き起こし、モデルのパフォーマンスに影響を及ぼすことになる。

本発明の実施形態は、事前訓練言語モデルの汎用言語知識の保持と、訓練による下流タスク適応モデルの取得との良好なトレードオフを実現し、モデルに多くの汎用言語知識を保持させ、かつモデルの性能を向上させるために、図２に示す事前訓練言語モデルの微調整方法を提供する。

図２に示すように、ステップ２０１において、事前訓練された事前訓練言語モデルを取得し、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定する。

ここで、前記事前訓練言語モデルは、事前訓練段階の訓練によって得られたモデルであり、前記事前訓練言語モデルは、通常、大量のテキスト訓練によって得られ、学習によって多くの汎用言語知識が得られる。具体的には、事前訓練言語モデルは、ＥＬＭｏモデル、ＧＰＴ／ＧＰＴ２モデル、またはＢＥＲＴモデル等であってもよいが、本発明の実施形態は、特にこれらに限定されない。

前記事前訓練言語モデルには、通常、入力層と出力層が含まれ、入力層と出力層の間には、複数の符号化層がある。本発明の実施形態は、前記ステップ２０１において、各符号化層の勾配閾値を決定し、後続ステップの判断に用いる。

ステップ２０２において、事前訓練言語モデルを具体的な下流タスクに適用する場合は、下流タスクに応じて事前訓練言語モデルを微調整する必要があり、具体的には、訓練サンプルを用いて事前訓練言語モデルを訓練し、モデルパラメータを調整することができる。該微調整プロセスは、一般的にウォームアップ訓練段階と標準訓練段階を含む。標準訓練段階に比べて、ウォームアップ訓練段階では、一般的にモデルパラメータが大幅に調整される。

例えば、微調整工程において、事前訓練言語モデルに対して１００００回の訓練を行い、前の２０００回がウォームアップ訓練であり、後の８０００回が標準訓練となる。通常、二つの段階の訓練サンプルは異なり、例えば、ウォームアップ訓練段階に用いられる訓練サンプルの複雑度は、標準訓練段階の訓練サンプルの複雑度よりも低くなる。具体的には、ウォームアップ訓練段階の訓練サンプルのテキスト長は、標準訓練段階の訓練サンプルのテキスト長よりも小さくなる。また、ウォームアップ訓練段階のモデルの学習率は、訓練工程の進行に伴って徐々に増加してもよい。

好ましくは、ウォームアップ訓練段階のモデルパラメータに対する調整幅が大きいことを考慮し、本発明の実施形態は微調整工程におけるウォームアップ訓練段階に適用することができる。当然ながら、標準訓練段階に本発明の実施形態の方法を実行することもでき、これに対して本発明は特に限定しない。

ステップ２０２において、具体的な下流タスクの訓練サンプルを利用し、事前訓練言語モデルを訓練し、訓練工程においてモデルパラメータを調整（微調整）することができる。複数回の反復訓練を行う可能性があるため、毎回の反復訓練が終了した後、通常、符号化層のモデルパラメータの更新を行う必要がある。モデルパラメータの過度の調整を回避するために、本発明の実施形態においては、各符号化層のモデルパラメータ調整を行う前に、該符号化層の勾配ノルムを算出する。前記勾配ノルムは、該符号化層のモデルパラメータの勾配変化の程度を表すものであり、通常は、符号化層の勾配が大きいほど、勾配ノルムは大きくなる。勾配ノルムは、通常、非負の値である。

ステップ２０３において、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定する。

本発明の実施形態では、ステップ２０３において、前記いずれかの符号化層の勾配ノルムと前記いずれかの符号化層の勾配閾値との大小関係を比較することにより、今回反復訓練終了後に、前記いずれかの符号化層のモデルパラメータを更新するか否かを決定する。通常、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定する。

以上のステップにより、本発明の実施形態では、事前訓練言語モデルの微調整工程において、毎回いずれかの符号化層のモデルパラメータを更新する前に、勾配閾値によって該符号化層のモデルパラメータの調整幅が過度に大きいかを判断し、大きすぎる場合は、該符号化層のモデルパラメータの調整を拒否することにより、事前訓練言語モデルの汎用言語知識の保持と、訓練による下流タスク適応モデルの取得との良好なトレードオフを得ることができ、モデルに多くの汎用言語知識を保持させ、さらにモデルの性能を向上させることができる。

図３に示すように、本発明の実施形態による他の事前訓練言語モデルの微調整方法は、以下の通りである。

ステップ３０１において、事前に訓練された事前訓練言語モデルを取得し、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定する。

ステップ３０２において、前記事前訓練言語モデルを訓練し、且つ前記訓練中に毎回いずれかの符号化層のモデルパラメータを更新する前に、前記いずれかの符号化層の勾配ノルムを算出する。

ステップ３０３において、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定する。

以上のステップ３０１～３０３は、図２におけるステップ２０１～２０３と類似し、紙面を節約するため、ここでは説明を省略する。

ステップ３０４において、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定した場合、前記いずれかの符号化層のモデルパラメータの勾配に基づき、前記いずれかの符号化層のモデルパラメータを更新する。

今回のモデルパラメータを更新する必要があると決定した場合、本発明の実施形態では、符号化層のモデルパラメータの勾配に基づき、モデルパラメータの更新を行うことができる。更新が完了した後、現在、微調整トレーニングの事前設定された終了条件を満たしている場合は、フローを終了し、それ以外の場合は、次のラウンドの反復訓練を続行する。

ステップ３０５において、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定した場合は、前記いずれかの符号化層のモデルパラメータ更新を拒否する。

今回モデルパラメータを更新する必要がないと決定した場合は、本発明の実施形態では、今回のモデルパラメータ更新を拒否する。その後、現在は微調整トレーニングの事前設定された終了条件を満たしているか否かを判断し、満たしている場合は、フローを終了し、それ以外の場合は、次のラウンドの反復訓練を続行する。

図４は、事前訓練言語モデルの構造概略図を示し、入力層、出力層及び入力層と出力層間に位置する多層符号化層を含んでいる。通常、入力層に近い符号化層ほど、より多くの汎用言語知識、例えば、文法構造、品詞特性等を学習し、出力層に近い符号化層ほど、より多くの特定の下流タスクに関連する知識を学習する。このため、入力層に近い符号化層ほど、そのモデルパラメータの勾配閾値が小さくなり、出力層に近い符号化層ほど、そのモデルパラメータの勾配閾値が大きくなる。このように、入力層に近い符号化層により多くの汎用言語知識を保留させ、出力層に近い符号化層により多くのタスク関連知識を学習させることができ、それにより、事前訓練言語モデルの汎用言語知識の保留と、訓練による下流タスク適応モデルの取得との良好なトレードオフが得られる。

本発明の実施形態では、以上のステップ２０１及び３０１において、予め設定された閾値関数に基づき、各符号化層の勾配閾値を算出することができ、ここで、前記閾値関数の入力は符号化層のシーケンス番号であり、前記閾値関数の出力は前記符号化層の勾配閾値である。

前記符号化層のシーケンス（順序）番号は、前記事前訓練言語モデルの入力層から出力層までの方向の順に番号付けされ、例えば、順次、符号化層１、符号化層２、…、符号化層ｎと番号付けされ、前記閾値関数の出力が、前記閾値関数の入力と正の相関があるようにすることで、入力層に近い符号化層ほど、そのモデルパラメータの勾配閾値が小さくなり、出力層に近い符号化層ほど、そのモデルパラメータの勾配閾値が大きくなる。また、前記勾配ノルムは、通常、非負の値である。図５は閾値関数の一例を示し、該例においては、前記閾値関数の出力する勾配閾値と入力される符号化層のシーケンス番号との間は線形関係であり、且つ出力は入力の増大に伴って増大する。

以上のステップ２０２及び３０２において、本発明の実施形態では、以下のいずれかの方式で、前記符号化層の勾配ノルムを算出することができる。

方式１：前記いずれかの符号化層の各モデルパラメータの勾配の二乗和を算出し、前記いずれかの符号化層の勾配ノルムを得る。

方式２：前記いずれかの符号化層の各モデルパラメータの絶対値の和を算出し、前記いずれかの符号化層の勾配ノルムを得る。

方式３：前記いずれかの符号化層の各モデルパラメータの絶対値のうちの最大値を決定し、前記いずれかの符号化層の勾配ノルムとする。

当然のことながら、本発明の実施形態では、さらに、例えば、前記いずれかの符号化層の各モデルパラメータの絶対値の平均値を算出し、前記いずれかの符号化層の勾配ノルムとするか、予め設定されたパラメータ重みに応じて、前記いずれかの符号化層の各モデルパラメータの絶対値に対して重み付け加算を行い、前記いずれかの符号化層の勾配ノルムを得る、等の他の算出方式を用いて前記勾配ノルムを算出することができる。これらの方式はいずれも本発明に適用することができ、ここでは一々例を挙げて説明しない。

以上の事前訓練言語モデルの微調整方法に基づいて、本発明の実施形態では、さらに以下のモジュールを含む事前訓練言語モデルの微調整装置を提供する。図６に示すように、決定モジュール６１は、予め訓練された事前訓練言語モデルを取得し、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定する。

算出モジュール６２は、前記事前訓練言語モデルを訓練し、且つ前記訓練中に毎回いずれかの符号化層のモデルパラメータを更新する前に、前記いずれかの符号化層の勾配ノルムを算出する。

判断モジュール６３は、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定する。

以上のモデルにより、本発明の実施形態の微調整装置は、事前訓練言語モデルの汎用言語知識の保留と、訓練による下流タスク適応モデルの取得との間の良好なトレードオフを得ることができ、モデルにより多くの汎用言語知識を保留させ、モデルの性能を向上させることができる。

任意選択的に、図７に示すように、本発明による他の事前訓練言語モデルの微調整装置は、図６におけるモジュールを含む以外に、さらに以下のものを含む。

更新モジュール６４は、前記判断モジュールが今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定した場合、前記いずれかの符号化層のモデルパラメータの勾配に基づき、前記いずれかの符号化層のモデルパラメータを更新し、前記判断モジュールが今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定した場合は、前記いずれかの符号化層のモデルパラメータの更新を拒否する。

任意選択的に、図６又は図７における前記算出モジュール６２は、さらに、前記いずれかの符号化層の各モデルパラメータの勾配の二乗和を算出し、前記いずれかの符号化層の勾配ノルムを得ること、前記いずれかの符号化層の各モデルパラメータの絶対和値を算出し、前記いずれかの符号化層の勾配ノルムを得ること、前記いずれかの符号化層の各モデルパラメータの絶対和のうちの最大値を決定し、前記いずれかの符号化層の勾配ノルムとすることの以下のいずれかの方式によって、前記符号化層の勾配ノルムを算出する。

任意選択的に、図６又は図７における前記決定モジュール６１は、さらに、予め設定された閾値関数に基づき、各符号化層の勾配閾値を算出し、ここで、前記閾値関数の入力は符号化層のシーケンス番号であり、前記閾値関数の出力は前記符号化層の勾配閾値である。

任意選択的に、前記符号化層のシーケンス番号は前記事前訓練言語モデルの入力層から出力層までの方向の順に番号付けされ、前記閾値関数の出力は前記閾値関数の入力と正の相関ある。

任意選択的に、前記勾配ノルムは非負の値である。

なお、該実施形態における装置は、前記図２又は図３に示される方法に対応する装置であり、前記各実施形態における実施方式は、いずれも該装置の実施形態に適用され、同じ技術的効果を達成することができる。本発明の実施形態による前記装置は、前記方法実施形態が実現する全ての方法ステップを実現することができ、且つ同じ技術的効果を達成することができ、ここでは、本実施形態における方法実施形態と同一の部分及び有益な効果についての具体的な説明は省略する。

図８を参照すると、本発明の実施形態では、さらに事前訓練言語モデルの微調整装置のハードウェア構成ブロック図を提供し、図８に示されたように、該事前訓練言語モデルの微調整装置８００は、プロセッサ８０２、及びコンピュータプログラム命令が記憶されたメモリ８０４を有する。

前記コンピュータプログラム命令が前記プロセッサにより実行される時、前記プロセッサ８０２に、予め訓練された事前訓練言語モデルを取得し、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定するステップと、前記事前訓練言語モデルを訓練し、且つ前記訓練中に毎回いずれかの符号化層のモデルパラメータを更新する前に、前記いずれかの符号化層の勾配ノルムを算出するステップと、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定するステップと、を実行させる。

さらに、図８に示すように、該事前訓練言語モデルの微調整装置８００は、さらにネットワークインターフェース８０１、入力装置８０３、ハードディスク８０５、及び表示装置８０６を含むことができる。

前記各インターフェースと装置との間は、バス構造によって相互接続することができる。バス構造は任意の数の相互接続されたバスとブリッジであってもよい。具体的にプロセッサ８０２で代表される１つ又は複数の計算能力を有するプロセッサであって、中央処理装置（ＣＰＵ、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）及び／又はグラフィックスプロセッサ（ＧＰＵ、ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を含み得る前記プロセッサと、メモリ８０４で代表される１つ又は複数のメモリの各種回路を接続することができる。バス構造は、さらに周辺機器、レギュレータ及び電力管理回路等のような様々な他の回路を接続することができる。理解できるように、バス構造は、これらのコンポーネント間の接続通信を実現することに用いられる。バス構造は、データバスを含む以外に、さらに電源バス、制御バス及び状態信号バスを含み、これらはいずれも当該分野で周知であるため、ここでは詳細に説明しない。

前記ネットワークインターフェース８０１は、ネットワーク（例えば、インターネット、ローカルネットワーク等）に接続することができ、ネットワークからデータ（例えば、訓練サンプル及び／又は事前訓練言語モデル）を受信し、且つ受信したデータをハードディスク８０５に記憶することができる。

前記入力装置８０３は、操作者が入力した各種コマンドを受信することができ、且つプロセッサ８０２に送信し実行に用いられるようにする。

前記入力装置８０３は、キーボード又はクリック装置（例えば、マウス、トラックボール、タッチパネル又はタッチスクリーン等）を含むことができる。

前記表示装置８０６は、プロセッサ８０２のコマンド実行による結果を表示することができ、例えば、事前訓練言語モデルの訓練の微調整進度等を表示する。

前記メモリ８０４は、オペレーティングシステムの実行に必要なプログラム及びデータ、及びプロセッサ８０２の演算過程における途中結果等のデータを記憶する。

理解できるように、本発明の実施形態におけるメモリ８０４は、揮発性メモリ又は不揮発性メモリであってもよく、又は揮発性と不揮発性メモリの両方を含んでもよい。不揮発性メモリは、読み出し専用メモリ（ＲＯＭ）、プログラマブル読み出し専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）又はフラッシュメモリであってもよい。不揮発性メモリは、ランダムアクセスメモリ（ＲＡＭ）であってもよく、外部キャッシュメモリとして用いられる。ここで説明された装置及び方法のメモリ８０４は、これら及び任意の他の適切なタイプのメモリを含むことを意図しているが、これらに限定されない。

いくつかの実施形態において、メモリ８０４は、オペレーティングシステム８０４１及びアプリケーションプログラム８０４２といった、要素、実行可能モジュール又はデータ構造、或いはそれらのサブセット、又はそれらの拡張セットを記憶する。

ここで、オペレーティングシステム８０４１は、例えば、フレーム層、コアライブラリ層、駆動層等の、各種システムプログラムを含み、各種基本サービスの実現及びハードウェアに基づくタスク処理に用いられる。アプリケーションプログラム８０４２は、例えば、ブラウザ（Ｂｒｏｗｓｅｒ）等の各種アプリケーションプログラムを含み、各種アプリケーションサービスの実現に用いられる。本発明の実施形態の方法を実現するプログラムはアプリケーションプログラム８０４２に含まれてもよい。

本発明の前記実施形態に開示された事前訓練言語モデルの微調整法は、プロセッサ８０２に応用されてもよく、又はプロセッサ８０２によって実現されてもよい。プロセッサ８０２は、集積回路チップであってもよく、信号の処理能力を有する。実現工程において、前記事前訓練言語モデルの微調整方法の各ステップは、プロセッサ８０２におけるハードウェアの集積論理回路又はソフトウェア形式の命令によって完了することができる。前記プロセッサ８０２は汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又は他のプログラマブルロジックデバイス、ディスクリートゲート又はトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントであってもよく、本発明の実施形態に開示された各方法、ステップ及びロジックブロック図を実現又は実行することができる。汎用プロセッサはマイクロプロセッサであってもよく、又は、該プロセッサは任意の従来のプロセッサ等であってもよい。本発明の実施形態に関連して開示された方法のステップは、直接的にハードウェア復号化プロセッサの実行に具現してもよく、復号化プロセッサにおけるハードウェア及びソフトウェアモジュールの組み合わせによって実行されてもよい。ソフトウェアモジュールは、ランダムアクセスメモリ、フラッシュメモリ、読み出し専用メモリ、プログラマブル読み出し専用メモリ又は電気的消去可能プログラマブルメモリ、レジスタ等の当該分野で成熟した記憶媒体に位置してもよい。該記憶媒体はメモリ８０４に位置し、プロセッサ８０２はメモリ８０４における情報を読み取り、ハードウェアと組み合わせて前記方法のステップを完了する。

理解すべきことは、本明細書に記載のこれらの実施形態は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード又はそれらの組み合わせで実現可能である。ハードウェアで実現する場合、処理ユニットは１つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理装置（ＤＳＰＤ）、プログラマブル論理装置（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、汎用プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、本明細書に記載の機能を実行するための他の電子ユニット又はそれらの組み合わせで実現することができる。

ソフトウェアで実現する場合、本明細書に記載の機能を実行するモジュール（例えば、工程、関数等）によって本明細書に記載の技術を実現することができる。ソフトウェアコードはメモリに記憶され且つプロセッサによって実行されてもよい。メモリはプロセッサ内又はプロセッサの外部で実施されてもよい。

具体的には、前記コンピュータプログラムがプロセッサ８０２によって実行される時に、さらに以下のステップを実施することができる。

今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定した場合、前記いずれかの符号化層のモデルパラメータの勾配に基づき、前記いずれかの符号化層のモデルパラメータを更新し、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定した場合、前記いずれかの符号化層のモデルパラメータを更新することを拒否する。

前記いずれかの符号化層の各モデルパラメータの勾配の二乗和を算出し、前記いずれかの符号化層の勾配ノルムを得ること、前記いずれかの符号化層の各モデルパラメータの絶対値の和を算出し、前記いずれかの符号化層の勾配ノルムを得ること、前記いずれかの符号化層の各モデルパラメータの絶対値のうちの最大値を決定し、前記いずれかの符号化層の勾配ノルムとすることの、いずれかの方式に基づき、前記いずれかの符号化層の勾配ノルムを算出する。

具体的には、前記コンピュータプログラムがプロセッサ８０２により実行される時に、さらに以下のステップを実現することができる。

予め設定された閾値関数に基づいて、各符号化層の勾配閾値を算出し、前記閾値関数の入力は符号化層のシーケンス番号であり、前記閾値関数の出力は前記符号化層の勾配閾値である。

具体的には、前記符号化層のシーケンス番号は、前記事前訓練言語モデルの入力層から出力層までの方向の順に番号付けされ、前記閾値関数の出力は前記閾値関数の入力と正の相関がある。

具体的には、前記勾配ノルムは非負の値である。

理解すべきことは、本発明の実施形態において、前記コンピュータプログラムがプロセッサ８０２により実行される時に、前記図２又は図３に示される方法実施形態の各工程を実現することができ、且つ同じ技術的効果を達成することができ、重複を避けるために、ここでは説明を省略する。

本発明のいくつかの実施形態においては、さらにコンピュータ読み取り可能な記憶媒体を提供し、該記憶媒体にプログラムが記憶され、該プログラムがプロセッサにより実行される時に、以下のステップ、すなわち、
事前に訓練された事前訓練言語モデルを取得し、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定するステップと、
前記事前訓練言語モデルを訓練し、且つ前記訓練中に毎回いずれかの符号化層のモデルパラメータを更新する前に、前記いずれかの符号化層の勾配ノルムを算出するステップと、
前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定するステップ、を実施する。

該プログラムはプロセッサにより実行される時に、前記事前訓練言語モデルの微調整方法におけるすべての実施方式を実現することができ、且つ同じ技術効果を達成することができ、重複を避けるために、ここでは説明を省略する。

当業者であれば、本明細書に開示された実施形態に関連して説明された各例のユニット及びアルゴリズムステップは、電子ハードウェア、又はコンピュータソフトウェアと電子ハードウェアとの組み合わせで実現可能であることが分かる。これらの機能がハードウェア方式で実行されるかソフトウェア方式で実行されるかは、技術的解決手段の特定のアプリケーション及び設計制約条件に依存する。当業者は各特定のアプリケーションに対して異なる方法を用いて記述された機能を実現することができるが、このような実現は本発明の範囲から逸脱するものではない。

当業者であれば明確に理解できるように、説明の便宜及び簡潔さのために、前述したシステム、装置及びユニットの具体的な動作工程は、前述した方法実施形態における対応の工程を参照することができ、ここでは詳細な説明を省略する。

本願の実施形態において、開示された装置及び手段は、他の方式で実施可能であることは理解すべきである。例えば、以上のように記載された装置実施形態は単に例示的なものであり、例えば、前記ユニットの分割は、単に論理機能の分割であり、実際に実施する時に他の分割方式を有することができ、例えば、複数のユニット又はアセンブリを組み合わせたり、他のシステムに統合したり、一部の機能を省略したり、実装しなかったりすることができる。他のポイントとして、表示又は議論された相互間の結合又は直接結合又は通信接続は、いくつかのインターフェース、装置又はユニットを介した間接結合又は通信接続であってもよく、電気的、力学的又は他の形式であってもよい。

前記分離部材として説明されたユニットは、物理的に分離されてもよく、ユニットとして表示された部材は、物理的ユニットであってもよく、又は物理的ユニットでなくてもよく、すなわち、一つの場所に位置してもよく、又は複数のネットワークユニットに分布してもよい。実際のニーズに応じて、そのうちの一部又は全部のユニットを選択して本発明の実施形態の解決手段の目的を実現することができる。

また、本発明の各実施形態における各機能ユニットは、一つの処理ユニットに集積されてもよく、各ユニットが単独で物理的に存在してもよく、二つ又は二つ以上のユニットが一つのユニットに集積されてもよい。

前記機能は、ソフトウェア機能ユニットの形式で実現され且つ独立した製品として販売又は使用される場合、一つのコンピュータ読み取り可能な記憶媒体に記憶されてもよい。

このような理解から、本発明の技術手段は、本質的に、或いは従来技術に寄与する部分または該技術手段一部は、ソフトウェア製品の形で具体化することができ、該コンピュータソフトウェア製品は、一つの記憶媒体に記憶され、一台のコンピュータ装置（パーソナルコンピュータ、サーバ、又はネットワーク装置等であってもよい）に本発明の各実施形態に記載の事前訓練言語モデルの微調整方法の全部又は一部のステップを実行させるための複数の命令を含む。また、前記記憶媒体は、ＵＳＢメモリ、モバイルハードディスク、ＲＯＭ、ＲＡＭ、磁気ディスク又は光ディスク等の各種プログラムコードを記憶可能な媒体を含む。

以上のように、本発明の具体的な実施形態に過ぎず、本発明の保護範囲はこれに限定されるものではなく、当業者であれば本発明に開示された技術範囲内で容易に想到可能な変化又は置換は、いずれも本発明の保護範囲内に含まれるべきである。従って、本発明の保護範囲は特許請求の保護範囲を基準とすべきである。

Claims

事前に訓練された事前訓練言語モデルを取得し、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定するステップと、
前記事前訓練言語モデルに対して訓練を行い、且つ前記訓練中に毎回いずれかの符号化層のモデルパラメータを更新する前に、前記いずれかの符号化層の勾配ノルムを算出するステップと、
前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定するステップと、
を含む、ことを特徴とする事前訓練言語モデルの微調整方法。
今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定した場合は、前記いずれかの符号化層のモデルパラメータの勾配に基づき、前記いずれかの符号化層のモデルパラメータを更新するステップと、
今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定した場合は、前記いずれかの符号化層のモデルパラメータの更新を拒否するステップと、
をさらに含む、ことを特徴とする請求項１に記載の微調整方法。
前記いずれかの符号化層の各モデルパラメータの勾配の二乗和を算出し、前記いずれかの符号化層の勾配ノルムを得ることと、
前記いずれかの符号化層の各モデルパラメータの絶対値の和を算出し、前記いずれかの符号化層の勾配ノルムを得ることと、
前記いずれかの符号化層の各モデルパラメータの絶対値のうちの最大値を前記いずれかの符号化層の勾配ノルムとして決定することと、
のいずれかの方式により、前記いずれかの符号化層の勾配ノルムを算出する、ことを特徴とする請求項１に記載の微調整方法。
前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定することが、
予め設定された閾値関数に基づき、各符号化層の勾配閾値を算出することを含み、前記閾値関数の入力が、符号化層のシーケンス番号であり、前記閾値関数の出力が、前記符号化層の勾配閾値である、
ことを特徴とする請求項１に記載の事前訓練言語モデルの微調整方法。
前記符号化層のシーケンス番号が、前記事前訓練言語モデルの入力層から出力層までの方向順に番号付けされ、前記閾値関数の出力は、前記閾値関数の入力と正の相関がある、
ことを特徴とする請求項４に記載の事前訓練言語モデルの微調整方法。
前記勾配ノルムが非負の値である、
ことを特徴とする請求項１から５のいずれか一項に記載の微調整方法。
事前に訓練された事前訓練言語モデルを取得し、前記事前訓練言語モデルにおける各符号化層の勾配閾値を決定する決定モジュールと、
前記事前訓練言語モデルに対して訓練を行い、且つ前記訓練中に毎回いずれかの符号化層のモデルパラメータを更新する前に、前記いずれかの符号化層の勾配ノルムを算出する算出モジュールと、
前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満である場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定し、前記いずれかの符号化層の勾配ノルムが前記いずれかの符号化層の勾配閾値未満でない場合は、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定する判断モジュールと、
を含む、ことを特徴とする事前訓練言語モデルの微調整装置。
前記判断モジュールにより、今回前記いずれかの符号化層のモデルパラメータを更新する必要があると決定した場合、前記いずれかの符号化層のモデルパラメータの勾配に基づき、前記いずれかの符号化層のモデルパラメータを更新し、前記判断モジュールにより、今回前記いずれかの符号化層のモデルパラメータを更新する必要がないと決定した場合は、前記いずれかの符号化層のモデルパラメータの更新を拒否する更新モジュールと、
をさらに含む、ことを特徴とする請求項７に記載の微調整装置。
前記算出モジュールは、
前記いずれかの符号化層の各モデルパラメータの勾配の二乗和を算出し、前記いずれかの符号化層の勾配ノルムを得ることと、
前記いずれかの符号化層の各モデルパラメータの絶対値の和を算出し、前記いずれかの符号化層の勾配ノルムを得ることと、
前記いずれかの符号化層の各モデルパラメータの絶対値のうちの最大値を、前記いずれかの符号化層の勾配ノルムとして決定することと、
のいずれかの方式によって、前記いずれかの符号化層の勾配ノルムを算出する、ことを特徴とする請求項７に記載の微調整装置。
前記決定モジュールは、さらに、予め設定された閾値関数に基づき、各符号化層の勾配閾値を算出し、前記閾値関数の入力が、符号化層のシーケンス番号であり、前記閾値関数の出力が、前記符号化層の勾配閾値である、
ことを特徴とする請求項７に記載の微調整装置。
前記符号化層のシーケンス番号は、前記事前訓練言語モデルの入力層から出力層までの方向順に番号付けされ、前記閾値関数の出力は、前記閾値関数の入力と正の相関がある、
ことを特徴とする請求項１０に記載の微調整装置。
前記勾配ノルムが非負の値である、
ことを特徴とする請求項７から１１のいずれか一項に記載の微調整装置。
プロセッサと、
前記プロセッサに接続され、且つコンピュータプログラムが記憶されているメモリと、を有し、
前記プロセッサは、前記コンピュータプログラムを実行することによって、請求項１から６のいずれか一項に記載の事前訓練言語モデルの微調整方法を実現するように構成される、事前訓練言語モデルの微調整装置。
コンピュータに、請求項１から６のいずれか一項に記載の事前訓練言語モデルの微調整方法を実行させるためのプログラム。
請求項１４に記載のプログラムを記憶しているコンピュータ読み取り可能な記憶媒体。