JP7283836B2 - マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォーム - Google Patents

マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォーム Download PDF

Info

Publication number
JP7283836B2
JP7283836B2 JP2022567027A JP2022567027A JP7283836B2 JP 7283836 B2 JP7283836 B2 JP 7283836B2 JP 2022567027 A JP2022567027 A JP 2022567027A JP 2022567027 A JP2022567027 A JP 2022567027A JP 7283836 B2 JP7283836 B2 JP 7283836B2
Authority
JP
Japan
Prior art keywords
class
meta
model
domain
multitasking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022567027A
Other languages
English (en)
Other versions
JP2023515902A (ja
Inventor
宏升 王
光 ▲陳▼
Original Assignee
之江実験室
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202011202867.7A external-priority patent/CN112100383B/zh
Application filed by 之江実験室 filed Critical 之江実験室
Publication of JP2023515902A publication Critical patent/JP2023515902A/ja
Application granted granted Critical
Publication of JP7283836B2 publication Critical patent/JP7283836B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)
  • Medical Informatics (AREA)

Description

本発明は言語モデル圧縮分野に属し、特にマルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォームに関する。
大規模な事前訓練言語モデルの自動圧縮技術は自然言語理解及び生成タスクの適用分野において顕著な役割を果たすが、スマート都市分野の下流タスクに向ける場合に、特定のデータセットに基づいて大モデルを再微調整することは依然としてモデルの圧縮効果を向上させるキーステップであり、既存の下流タスク言語モデル向けの微調整方法は、下流タスクの特定のデータセットにおいて微調整を行い、訓練して得られた圧縮モデルの効果は当該クラスのタスクの特定のデータセットによって制限される。
本発明の目的は従来技術の不足に対し、マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォームを提供することである。本発明はクロスドメインの典型的なスコア学習を提案し、この方法により同一クラスのタスクの異なるデータセットにおける高度に移行可能な共有知識を取得し、「メタ知識」を導入して、異なるデータセットに対応する異なるドメインにおける同一クラスのタスクの学習プロセスを相互に関連付け且つ相互に強化し、スマート都市分野における言語モデルの適用において同一クラスの下流タスクの異なるドメインデータセットにおける微調整効果を向上させ、同一クラスのタスクの汎用言語モデルのパラメータ初期化能力及び汎化能力を向上させる。
本発明の目的は以下の技術的解決手段によって実現され、マルチタスク言語モデル向けのメタ知識微調整方法であって、
同一クラスのタスクのクロスドメインデータセットのクラスプロトタイプを計算する第1の段階であって、同一クラスのタスクの異なるドメインにおけるデータセットから、当該クラスのタスクに対応するドメインのプロトタイプの埋め込み特徴を集中学習し、同一クラスのタスクの異なるドメインにおけるすべての入力テキストの平均埋め込み特徴を、対応する同一クラスのタスクのマルチドメインにおけるクラスプロトタイプとする第1の段階と、
インスタンスの典型的なスコアを計算する第2の段階であって、dselfで各インスタンスの埋め込み特徴と自己ドメインプロトタイプとの距離を表し、dothersで各インスタンスの埋め込み特徴と他のドメインプロトタイプとの距離を表し、各インスタンスの典型的なスコアはdselfとdothersとの線形結合と定義される第2の段階と、
典型的なスコアに基づくメタ知識微調整ネットワークである第3の段階であって、第2の段階で得られた典型的なスコアをメタ知識微調整ネットワークの重み係数とし、マルチタスクの典型的な機密ラベル分類損失関数を設計してメタ知識微調整の学習目的関数とし、当該損失関数はテキスト分類器が誤って予測したすべてのドメインにおけるインスタンスのラベルに対して罰則を与える第3の段階と、を含む。
さらに、前記第1の段階において、
Figure 0007283836000001
でデータセットのk番目のドメインDにおけるクラスラベルがmの入力テキスト
Figure 0007283836000002
の集合を表し、
Figure 0007283836000003
となる。
ここで、m∈Mとし、Mはデータセットにおけるすべてのクラスラベルの集合であり、
Figure 0007283836000004
はk番目のドメインにおけるi番目のインスタンスである。
クラスプロトタイプ
Figure 0007283836000005
はk番目のドメインにおけるクラスラベルがmのすべての入力テキストの平均埋め込み特徴であり、
Figure 0007283836000006
となる。
ここで、
Figure 0007283836000007
はBERTモデルから出力された
Figure 0007283836000008
の埋め込み表現を表し、BERTモデルに対し、平均埋め込み特徴は入力される
Figure 0007283836000009
に対応する最終層のTransformerエンコーダの平均プーリングである。
さらに、前記第2の段階において、インスタンス
Figure 0007283836000010
の典型的なスコア
Figure 0007283836000011
Figure 0007283836000012
となる。
ここで、αは所定のバランスファクターであり、0<α<1とし、
Figure 0007283836000013
はコサイン類似度測定関数であり、Kはドメインの数であり、
Figure 0007283836000014
は指示関数であり、
Figure 0007283836000015
であれば、1に戻り、
Figure 0007283836000016
であれば、0に戻り、インデックス
Figure 0007283836000017
は総和を求めるために用いられ、βm>0は
Figure 0007283836000018
の重みであり、同一クラスの
Figure 0007283836000019
の重みが同じである。
さらに、前記第3の段階において、マルチタスクの典型的な機密ラベル分類損失関数Lは、
Figure 0007283836000020
となる。
ここで、Dはすべてのドメインの集合を表し、
Figure 0007283836000021
は指示関数であり、
Figure 0007283836000022
であれば、1に戻り、
Figure 0007283836000023
であれば、0に戻り、
Figure 0007283836000024

Figure 0007283836000025
のクラスラベルがmであると予測した確率を表し、
Figure 0007283836000026
はBERTモデルの最終層が出力した「[CLS]」のtokenの埋め込み層特徴を表す。
マルチタスク言語モデル向けのメタ知識微調整プラットフォームであって、
マルチタスク向けの事前訓練言語モデルの訓練サンプルを取得するためのデータ読み込みコンポーネントであって、前記訓練サンプルは教師あり学習タスクを満たすラベル付きのテキストサンプルであるデータ読み込みコンポーネントと、
マルチタスク向けの事前訓練言語モデルを自動的に圧縮するための自動圧縮コンポーネントであって、事前訓練言語モデルと、自動圧縮コンポーネントにより生成された事前訓練言語モデルにおいて下流タスクネットワークを構築し、典型的なスコアのメタ知識を用いて下流タスクシーンを微調整し、最終的に微調整された圧縮モデル、すなわちログインユーザが要求する下流タスクを含む事前訓練言語モデルの圧縮モデルを出力し、圧縮モデルを、ログインユーザがダウンロードできるように指定された容器に出力し、圧縮前後のモデルの大きさの比較情報を表示するためのメタ知識微調整モジュールと、を含む自動圧縮コンポーネントと、
ログインユーザがプラットフォームから取得可能な事前訓練言語モデルの圧縮モデルを提供し、前記自動圧縮コンポーネントから出力された圧縮モデルを用いて実際のシーンのデータセットにおいてログインユーザがアップロードした自然言語処理の下流タスクの新しいデータを推論し、圧縮前後の推論速度の比較情報を表示するための推論コンポーネントと、を含む。
本発明の有益な効果は以下のとおりである。
(1)本発明はクロスドメインの典型的なスコア学習に基づいてマルチタスク言語モデル向けのメタ知識微調整方法を検討し、当該下流タスク向けの事前訓練言語モデルの微調整方法は、下流タスクのクロスドメインデータセットにおいて微調整を行い、微調整により得られた圧縮モデルの効果は当該クラスのタスクの特定のデータセットに制限されず、事前訓練言語モデルを基に、メタ知識微調整ネットワークにより下流タスクに対して微調整を行うことで、データセットと無関係な同一クラスの下流タスク言語モデルを得る。
(2)本発明は同一クラスのタスクの異なるデータセットにおける高度に移行可能な共有知識であるメタ知識を学習することを提案し、メタ知識を導入し、メタ知識微調整ネットワークにより同一クラスのタスクの異なるデータセットに対応する異なるドメインにおける学習プロセスを相互に関連付け且つ相互に強化し、スマート都市分野の言語モデルの適用において同一クラスの下流タスクの異なるドメインデータセットにおける微調整効果を向上させ、同一クラスのタスクの汎用言語モデルのパラメータ初期化能力及び汎化能力を向上させ、最終的に、同一クラスの下流タスクの言語モデルを取得する。
(3)本発明のマルチタスク言語モデル向けのメタ知識微調整プラットフォームは、同一クラスのタスクの言語モデル向けの汎用アーキテクチャを生成し、微調整されたモデルアーキテクチャを十分に利用して下流の同一クラスのタスクの圧縮効率を向上させ、大規模な自然言語処理モデルをメモリが小さく、リソースが限られる端末機器に配置することができ、業界で汎用深度言語モデルの実装を促進した。
本発明のメタ知識微調整方法の全体アーキテクチャ図である。
図1に示すように、本発明のマルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォームは、事前訓練言語モデルの下流タスクのマルチドメインデータセットにおいて、クロスドメインの典型的なスコア学習に基づいて、典型的なスコアのメタ知識を用いて下流タスクシーンを微調整することで、メタ学習者は任意のドメインに微調整しやすく、学習して得られた知識はある特定のドメインに制限されなく、高度な汎化及び移植性を有し、得られた圧縮モデルの効果は同一クラスのタスクの異なるドメインにおけるデータシーンに適応する。
本発明のマルチタスク言語モデル向けのメタ知識微調整方法は、具体的には、以下のステップを含む。
ステップ1、同一クラスのタスクのクロスドメインデータセットのクラスプロトタイプを計算する。マルチドメインのクラスプロトタイプは対応する訓練データセットのキーセマンティック特徴をまとめることができると考えられるため、異なるドメインのデータセットから、当該クラスのタスクに対応するドメインのプロトタイプの埋め込み特徴を集中学習し、同一クラスのタスクのマルチドメインのクラスプロトタイプを生成し、具体的には、BERT言語モデルに対し、同一クラスのタスクの異なるドメインにおけるすべての入力テキストの平均埋め込み特徴を当該クラスのタスクに対応するクラスプロトタイプとし、ただし、平均埋め込み特徴は、現在の入力インスタンスに対応する最終層のTransformerエンコーダの平均プーリング層の出力を採用する。
ステップ(1.1)、クロスドメインデータセットを定義する。入力インスタンスのクラス集合をMと定義し、k番目のドメインにおけるm番目のクラスラベルのすべての入力テキスト
Figure 0007283836000027
インスタンスの集合を
Figure 0007283836000028
と定義し、ここでm∈Mとする。
ステップ(1.2)、クラスプロトタイプを定義する。k番目のドメインDのすべての入力テキストの平均埋め込み特徴を当該ドメインに対応するクラスプロトタイプとする。
ステップ(1.3)、クラスプロトタイプを計算する。クラスプロトタイプ
Figure 0007283836000029
は、BERTモデルに入力される
Figure 0007283836000030
に対応する最終層のTransformerエンコーダの平均プーリングを採用し、計算は、
Figure 0007283836000031
となる。
ここで、
Figure 0007283836000032

Figure 0007283836000033
をd次元にマッピングする埋め込み特徴を表す。
ステップ2、訓練インスタンスの典型的なスコアを計算する。訓練インスタンスがセマンティック上、自己ドメインのクラスプロトタイプから近く、他のドメインで生成されたクラスプロトタイプからもあまり遠くない場合、このインスタンスは典型的であり、高い移植性を有すると考えられる。訓練インスタンスのセマンティックには、自己ドメインとの関連特徴と、他のドメインとの関連特徴の両方が含まれる必要があり、典型的な訓練インスタンスを上記2つの関連特徴の線形結合と定義する。具体的には、dselfで各訓練インスタンスの埋め込み特徴と自己ドメインプロトタイプとの距離を表し、dothersで各訓練インスタンスの埋め込み特徴と他のドメインプロトタイプとの距離を表し、各インスタンスの典型的なスコアをdselfとdothersとの線形結合と定義する。
1つのプロトタイプだけであるクラスの複雑なセマンティック情報を表すには十分でない可能性があるため、上記単一のクラスプロトタイプをさらに、複数のプロトタイプに基づいてクラスタリングすることで生成されたあるクラスのクラスプロトタイプに拡張する。具体的には、例えば、自然言語感情の極性分類問題において、すなわちある文の感情極性の判別には、可能な極性はポジティブ(positive)、ネガティブ(negative)、ニュートラル(neutral)及びコンフリクト(conflict)を含み、すべての感情に向ける極性分類タスクにおいては、ポジティブクラスのクラスプロトタイプの計算方法について、複数の異なるデータセットにおいてクラスタリングすることによって当該クラスに対応する汎用クラスプロトタイプを生成することができる。
ステップ(2.1)、訓練インスタンスと自己ドメインとの関連特徴を計算する。各訓練インスタンスと自己ドメインとの関連特徴は、各訓練インスタンス
Figure 0007283836000034
とその自己ドメインプロトタイプ
Figure 0007283836000035
とのコサイン類似度測定距離であり、すなわち、
Figure 0007283836000036
である。
ステップ(2.2)、訓練インスタンスと他のドメインとの関連特徴を計算する。各訓練インスタンスと他のドメインとの関連特徴は、各訓練インスタンス
Figure 0007283836000037
と他のドメインに生成されるクラスプロトタイプとのコサイン類似度測定距離であり、すなわち、
Figure 0007283836000038
である。
ステップ(2.3)、典型的な訓練インスタンスの特徴スコアを計算する。典型的な訓練インスタンス
Figure 0007283836000039
の特徴スコアは
Figure 0007283836000040
となる。
ここで、αは所定のバランスファクターであり、0<α<1とし、
Figure 0007283836000041
はコサイン類似度測定関数であり、
Figure 0007283836000042
は指示関数であり、入力されたブール関数がtrueであれば、1に戻り、そうでなければ、0に戻る。
ステップ(2.4)、複数のプロトタイプに基づいて典型的な訓練インスタンスの特徴スコアを計算する。1つのプロトタイプだけであるクラスの複雑なセマンティック情報を表すには十分でない可能性があると考えられるため、クラスタリングによって複数のプロトタイプを生成し、同一クラスの複数のプロトタイプに基づいて当該クラスのクラスプロトタイプを計算する。したがって、インスタンス
Figure 0007283836000043
の特徴スコア
Figure 0007283836000044
Figure 0007283836000045
となるように拡張する。
ここで、βm>0はインスタンス
Figure 0007283836000046
のクラスタメンバーの重みであり、各クラスラベルm∈Mとする。
ステップ3、典型的なスコアに基づくメタ知識微調整ネットワークである。次に、以上算出された典型的な特徴スコアに基づいて、メタ知識微調整の学習目的関数をどのように設計するかを検討する。本発明はクロスドメインの典型的なインスタンス特徴に基づいてマルチタスクの典型的な機密ラベル分類損失関数を設計することを提案する。当該損失関数はテキスト分類器が誤って予測したすべてのK個のドメインにおける典型的なインスタンスのラベルに対して罰則を与える。具体的には、ステップ2で得られた典型的なスコアをメタ知識微調整ネットワークの重み係数とする。メタ知識微調整ネットワークの学習目的関数は、
Figure 0007283836000047
となるように定義される。
ここで、Lはマルチタスクの典型的な機密ラベル分類損失関数であり、当該損失関数はテキスト分類器が誤って予測したすべてのK個のドメインの典型的なインスタンスのラベルに対して罰則を与える。
Figure 0007283836000048
は各訓練インスタンスの重みである。
Figure 0007283836000049
はインスタンス
Figure 0007283836000050
のクラスラベルがm∈Mであると予測する確率であり、BERT最終層のd次元の「[CLS]」のtokenの埋め込み層を採用して特徴とし、
Figure 0007283836000051
で表す。
本発明のマルチタスク言語モデル向けのメタ知識微調整プラットフォームは、以下のコンポーネントを含む。
データ読み込みコンポーネント:マルチタスク向けの事前訓練言語モデルの訓練サンプルを取得するために用いられ、前記訓練サンプルは教師あり学習タスクを満たすラベル付きのテキストサンプルである。
自動圧縮コンポーネントは、マルチタスク向けの事前訓練言語モデルを自動的に圧縮するために用いられ、事前訓練言語モデルとメタ知識微調整モジュールとを含む。
メタ知識微調整モジュールは前記自動圧縮コンポーネントにより生成された事前訓練言語モデルにおいて下流タスクネットワークを構築し、典型的なスコアのメタ知識を用いて下流タスクシーンを微調整し、最終的に微調整された圧縮モデル、すなわちログインユーザが要求する下流タスクを含む事前訓練言語モデルの圧縮モデルを出力し、前記圧縮モデルを、前記ログインユーザがダウンロードできるように指定された容器に出力し、圧縮前後のモデルの大きさの比較情報を前記プラットフォームの圧縮モデル出力ページで表示する。
推論コンポーネントは、ログインユーザが前記プラットフォームから取得可能な事前訓練言語モデルの圧縮モデルを提供し、前記自動圧縮コンポーネントから出力された圧縮モデルを用いて実際のシーンのデータセットにおいてログインユーザがアップロードした自然言語処理の下流タスクの新しいデータを推論し、圧縮前後の推論速度の比較情報を前記プラットフォームの圧縮モデル推論ページで表示する。
以下、インテリジェントな質問応答、インテリジェントな顧客サービス、複数ラウンドの対話の適用シーンにおける自然言語推定タスクにより本発明の技術的解決手段についてさらに詳細に説明する。
自然言語推定タスクとは、1ペアの文に対して、2つの文のセマンティックが近いか、矛盾であるか、又は中立であるかを判断することである。分類問題でもあるため、文ペアの分類問題とも呼ばれる。MNLIデータセットは複数の分野からの訓練例を提供し、その目的は2つの文が意味的に近いか、矛盾であるか、又は無関係であるかを推定することである。前記プラットフォームのデータ読み込みコンポーネントによりログインユーザがアップロードした自然言語推定タスクのBERTモデル及びMNLIデータセットを取得し、前記プラットフォームの自動圧縮コンポーネントにより、マルチタスク向けのBERT事前訓練言語モデルを生成し、前記プラットフォームにより、自動圧縮コンポーネントにより生成されたBERT事前訓練モデルを読み込み、前記生成された事前訓練モデルにおいて自然言語推定タスクのモデルを構築し、前記自動圧縮コンポーネントのメタ知識微調整モジュールにより得られた圧縮モデルに基づいて微調整を行い、事前訓練言語モデルを基に、下流タスクネットワークを構築し、典型的なスコアのメタ知識を用いて下流タスクシーンを微調整し、最終的に微調整された圧縮モデル、すなわちログインユーザが要求する自然言語推定タスクを含む事前訓練言語モデルの圧縮モデルを出力し、前記圧縮モデルを、前記ログインユーザがダウンロードできるように指定された容器に出力し、訓練データから各分野のデータの5%、10%、20%のデータをランダムにサンプリングしてメタ知識微調整を行う。微調整前後のモデルの精度の比較情報を前記プラットフォームの圧縮モデル出力ページで表示し、以下の表1に示す。
Figure 0007283836000052
表1からさらに分かるように、前記プラットフォームの推論コンポーネントにより、前記プラットフォームから出力された圧縮モデルを用いてログインユーザがアップロードしたMNLIテストセットデータを推論し、前記プラットフォームの圧縮モデル推論ページで、メタ知識微調整前よりメタ知識微調整後の動物、植物、車両分野における推論精度がそれぞれ0.9%、0.5%、6.0%向上したことを、表示する。

Claims (2)

  1. マルチタスク言語モデル向けのメタ知識微調整方法であって、
    同一クラスのタスクのクロスドメインデータセットのクラスプロトタイプを計算する第1の段階であって、同一クラスのタスクの異なるドメインにおけるデータセットから、当該クラスのタスクに対応するドメインのプロトタイプの入力テキストの埋め込み特徴を集中学習し、同一クラスのタスクの異なるドメインにおけるすべての入力テキストの平均埋め込み特徴を、対応する同一クラスのタスクのマルチドメインにおけるクラスプロトタイプとする第1の段階と、
    インスタンスの典型的なスコアを計算する第2の段階であって、インスタンスは入力テキストとクラスラベルで構成され、マルチクラスのタスクに対応するすべてのドメインに対して、selfで各インスタンスの入力テキストの埋め込み特徴と自己ドメインプロトタイプとの距離を表し、dothersで各インスタンスの入力テキストの埋め込み特徴と他のドメインプロトタイプとの距離を表し、各インスタンスの典型的なスコアはdselfとdothersとの線形結合と定義される第2の段階と、
    典型的なスコアに基づくメタ知識微調整ネットワークである第3の段階であって、第2の段階で得られた典型的なスコアをメタ知識微調整ネットワークの重み係数とし、マルチタスクの典型的な機密ラベル分類損失関数を設計してメタ知識微調整の学習目的関数とし、当該損失関数を用いて訓練し、マルチタスク言語モデルを取得する第3の段階と、を含
    前記第1の段階において、
    Figure 0007283836000053
    でデータセットのk番目のドメインDにおけるクラスラベルがmの入力テキスト
    Figure 0007283836000054
    の集合を表し、
    Figure 0007283836000055
    となり、
    ここで、m∈Mとし、Mはデータセットにおけるすべてのクラスラベルの集合であり、
    Figure 0007283836000056
    はk番目のドメインにおけるi番目のインスタンスであり、
    クラスプロトタイプ
    Figure 0007283836000057
    はk番目のドメインにおけるクラスラベルがmのすべての入力テキストの平均埋め込み特徴であり、
    Figure 0007283836000058
    となり、
    ここで、
    Figure 0007283836000059
    はBERTモデルから出力された
    Figure 0007283836000060
    の埋め込み表現を表し、BERTモデルに対し、平均埋め込み特徴は入力される
    Figure 0007283836000061
    に対応する最終層のTransformerエンコーダの平均プーリングであ
    前記第2の段階において、インスタンス
    Figure 0007283836000062
    の典型的なスコア
    Figure 0007283836000063
    は、
    Figure 0007283836000064
    となり、
    ここで、αは所定のバランスファクターであり、0<α<1とし、
    Figure 0007283836000065
    はコサイン類似度測定関数であり、Kはドメインの個数であり、k=1~Kとなり、
    Figure 0007283836000066
    は指示関数であり、
    Figure 0007283836000067
    であれば、1に戻り、
    Figure 0007283836000068
    であれば、0に戻り、βm>0は
    Figure 0007283836000069
    の重みであり、同一クラスの
    Figure 0007283836000070
    の重みが同じであ
    前記第3の段階において、マルチタスクの典型的な機密ラベル分類損失関数L
    Figure 0007283836000071
    となり、
    ここで、Dはすべてのドメインの集合を表し、
    Figure 0007283836000072
    は指示関数であり、
    Figure 0007283836000073
    であれば、1に戻り、
    Figure 0007283836000074
    であれば、0に戻り、
    Figure 0007283836000075

    Figure 0007283836000076
    のクラスラベルがmであると予測する確率を表し、
    Figure 0007283836000077
    はBERTモデルの最終層が出力しtokenの埋め込み層特徴を表す、
    ことを特徴とするマルチタスク言語モデル向けのメタ知識微調整方法。
  2. マルチタスク向けの事前訓練言語モデルの訓練サンプルを取得するためのデータ読み込みコンポーネントであって、前記訓練サンプルは教師あり学習タスクを満たすラベル付きのテキストサンプルであるデータ読み込みコンポーネントと、
    マルチタスク向けの事前訓練言語モデルを自動的に圧縮するための自動圧縮コンポーネントであって、事前訓練言語モデルと、自動圧縮コンポーネントにより生成された事前訓練言語モデルにおいて下流タスクネットワークを構築し、典型的なスコアのメタ知識を用いて下流タスクシーンを微調整し、最終的に微調整された圧縮モデル出力し、圧縮モデルを、ログインユーザがダウンロードできるように指定された容器に出力し、圧縮前後のモデルの大きさの比較情報を表示するためのメタ知識微調整モジュールと、を含む自動圧縮コンポーネントと、
    ログインユーザがプラットフォームから取得可能な事前訓練言語モデルの圧縮モデルを提供し、前記自動圧縮コンポーネントから出力された圧縮モデルを用いて実際のシーンのデータセットにおいてログインユーザがアップロードした自然言語処理の下流タスクの新しいデータを推論し、圧縮前後の推論速度の比較情報を表示するための推理コンポーネントと、を含む、
    ことを特徴とする請求項に記載のマルチタスク言語モデル向けのメタ知識微調整方法に基づくプラットフォーム。
JP2022567027A 2020-11-02 2020-12-21 マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォーム Active JP7283836B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011202867.7A CN112100383B (zh) 2020-11-02 2020-11-02 一种面向多任务语言模型的元-知识微调方法及平台
CN202011202867.7 2020-11-02
PCT/CN2020/138014 WO2022088444A1 (zh) 2020-11-02 2020-12-21 一种面向多任务语言模型的元-知识微调方法及平台

Publications (2)

Publication Number Publication Date
JP2023515902A JP2023515902A (ja) 2023-04-14
JP7283836B2 true JP7283836B2 (ja) 2023-05-30

Family

ID=81380128

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022567027A Active JP7283836B2 (ja) 2020-11-02 2020-12-21 マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォーム

Country Status (3)

Country Link
US (1) US11354499B2 (ja)
JP (1) JP7283836B2 (ja)
GB (1) GB2609768A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114925814B (zh) * 2022-05-26 2024-08-02 山东大学 基于注意力引导机制的预训练语言模型的微调方法及系统
CN115409124B (zh) * 2022-09-19 2023-05-23 小语智能信息科技(云南)有限公司 基于微调原型网络的小样本敏感信息识别方法
CN117113198B (zh) * 2023-09-24 2024-06-28 元始智能科技(南通)有限公司 一种基于半监督对比学习的旋转设备小样本故障诊断方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767954A (zh) 2017-10-16 2018-03-06 中国科学院地理科学与资源研究所 一种基于空间贝叶斯网络的环境健康风险监测预警系统及方法
US20200320982A1 (en) 2019-04-05 2020-10-08 Capital One Services, Llc Determining Input Data for Speech Processing
CN111767711A (zh) 2020-09-02 2020-10-13 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台
CN111832282A (zh) 2020-07-16 2020-10-27 平安科技(深圳)有限公司 融合外部知识的bert模型的微调方法、装置及计算机设备

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719701B2 (en) * 2009-01-02 2014-05-06 Apple Inc. Identification of guides and gutters of a document
WO2011058554A1 (en) * 2009-11-10 2011-05-19 Au10Tix Limited Computerized integrated authentication/ document bearer verification system and methods useful in conjunction therewith
US9367526B1 (en) * 2011-07-26 2016-06-14 Nuance Communications, Inc. Word classing for language modeling
US9218339B2 (en) * 2011-11-29 2015-12-22 Educational Testing Service Computer-implemented systems and methods for content scoring of spoken responses
US9564122B2 (en) * 2014-03-25 2017-02-07 Nice Ltd. Language model adaptation based on filtered data
US9529898B2 (en) * 2014-08-26 2016-12-27 Google Inc. Clustering classes in language modeling
RU2603495C1 (ru) * 2015-06-16 2016-11-27 Общество с ограниченной ответственностью "Аби Девелопмент" Классификация изображений документов на основе параметров цветовых слоев
GB201713728D0 (en) * 2017-08-25 2017-10-11 Just Eat Holding Ltd System and method of language processing
CN108830287A (zh) 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
US11790264B2 (en) * 2019-06-19 2023-10-17 Google Llc Systems and methods for performing knowledge distillation
US11620515B2 (en) * 2019-11-07 2023-04-04 Salesforce.Com, Inc. Multi-task knowledge distillation for language model
US20210142181A1 (en) * 2019-11-07 2021-05-13 Microsoft Technology Licensing, Llc Adversarial training of machine learning models
CN110909145B (zh) 2019-11-29 2022-08-09 支付宝(杭州)信息技术有限公司 针对多任务模型的训练方法及装置
US11120839B1 (en) * 2019-12-12 2021-09-14 Amazon Technologies, Inc. Segmenting and classifying video content using conversation
CN111310848B (zh) 2020-02-28 2022-06-28 支付宝(杭州)信息技术有限公司 多任务模型的训练方法及装置
CN111291166B (zh) 2020-05-09 2020-11-03 支付宝(杭州)信息技术有限公司 基于Bert的语言模型的训练方法及装置
CN111814448B (zh) * 2020-07-03 2024-01-16 思必驰科技股份有限公司 预训练语言模型量化方法和装置
CN112100383B (zh) * 2020-11-02 2021-02-19 之江实验室 一种面向多任务语言模型的元-知识微调方法及平台

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767954A (zh) 2017-10-16 2018-03-06 中国科学院地理科学与资源研究所 一种基于空间贝叶斯网络的环境健康风险监测预警系统及方法
US20200320982A1 (en) 2019-04-05 2020-10-08 Capital One Services, Llc Determining Input Data for Speech Processing
CN111832282A (zh) 2020-07-16 2020-10-27 平安科技(深圳)有限公司 融合外部知识的bert模型的微调方法、装置及计算机设备
CN111767711A (zh) 2020-09-02 2020-10-13 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台

Also Published As

Publication number Publication date
US20220138414A1 (en) 2022-05-05
GB2609768A9 (en) 2023-03-08
GB2609768A (en) 2023-02-15
JP2023515902A (ja) 2023-04-14
US11354499B2 (en) 2022-06-07
GB202214177D0 (en) 2022-11-09

Similar Documents

Publication Publication Date Title
CN112100383B (zh) 一种面向多任务语言模型的元-知识微调方法及平台
JP7283836B2 (ja) マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォーム
CN110427463B (zh) 搜索语句响应方法、装置及服务器和存储介质
CN108536681B (zh) 基于情感分析的智能问答方法、装置、设备及存储介质
CN110442718B (zh) 语句处理方法、装置及服务器和存储介质
CN109492229B (zh) 一种跨领域情感分类方法和相关装置
CN110427461B (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
CN110728298A (zh) 多任务分类模型训练方法、多任务分类方法及装置
CN112085120B (zh) 多媒体数据的处理方法、装置、电子设备及存储介质
CN115131698B (zh) 视频属性确定方法、装置、设备及存储介质
CN112148994B (zh) 信息推送效果评估方法、装置、电子设备及存储介质
CN113392640B (zh) 一种标题确定方法、装置、设备及存储介质
Zhang Voice keyword retrieval method using attention mechanism and multimodal information fusion
CN114519397B (zh) 基于对比学习的实体链接模型的训练方法、装置、设备
CN114492661B (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN114416962B (zh) 问题答案的预测方法、预测装置、电子设备、存储介质
CN117540007B (zh) 基于相似模态补全的多模态情感分析方法、系统和设备
CN109408619A (zh) 一种面向问答领域动态计算问句与答案相似性的方法
CN113590803A (zh) 一种数据处理方法、装置、存储介质和计算机设备
CN115659242A (zh) 一种基于模态增强卷积图的多模态情感分类方法
CN110826726B (zh) 目标处理方法、目标处理装置、目标处理设备及介质
Wu English Vocabulary Learning Aid System Using Digital Twin Wasserstein Generative Adversarial Network Optimized With Jelly Fish Optimization Algorithm
CN113569091A (zh) 视频数据的处理方法、装置
CN111782762A (zh) 问答应用中相似问题确定方法、装置、电子设备
Zhang et al. Scene categorization based on object bank

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221101

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221101

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20221101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230511

R150 Certificate of patent or registration of utility model

Ref document number: 7283836

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150