JP7495543B2 - 事前トレーニングモデルのプロンプトベクトルの決定方法、装置及び電子機器 - Google Patents
事前トレーニングモデルのプロンプトベクトルの決定方法、装置及び電子機器 Download PDFInfo
- Publication number
- JP7495543B2 JP7495543B2 JP2023034494A JP2023034494A JP7495543B2 JP 7495543 B2 JP7495543 B2 JP 7495543B2 JP 2023034494 A JP2023034494 A JP 2023034494A JP 2023034494 A JP2023034494 A JP 2023034494A JP 7495543 B2 JP7495543 B2 JP 7495543B2
- Authority
- JP
- Japan
- Prior art keywords
- prompt
- vector
- vectors
- determining
- difference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims description 622
- 238000000034 method Methods 0.000 title claims description 108
- 238000012549 training Methods 0.000 title claims description 66
- 238000013138 pruning Methods 0.000 claims description 86
- 230000008569 process Effects 0.000 claims description 50
- 238000012937 correction Methods 0.000 claims description 31
- 210000002569 neuron Anatomy 0.000 claims description 29
- 238000012986 modification Methods 0.000 claims description 24
- 230000004048 modification Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 22
- 238000002372 labelling Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010200 validation analysis Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims 2
- 238000005516 engineering process Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Description
本開示は、コンピュータ技術の分野に関し、具体的に自然言語処理、深層学習などの人工知能技術の分野に関し、特に事前トレーニングモデルのプロンプトベクトルの決定方法、装置、電子機器及び記憶媒体に関する。
コンピュータ技術の発展に伴い、自然言語処理の応用もますます広くなっている。
関連技術では、事前トレーニングモデルの入力に連続的なプロンプト(prompt)ベクトルのセットを追加し、そして、事前トレーニングモデルのパラメーターが特定の値に設定される場合、トレーニングサンプルを使用してプロンプトベクトルを逆伝播し最適化し、最適なプロンプトベクトルを決定することができる。通常、単一の事前トレーニングモデルのみによって決定されたプロンプトベクトルは一方的で不正確である可能性がある。そのため、プロンプトベクトルの精度をいかに向上させるかが非常に重要である。
本開示は、事前トレーニングモデルのプロンプトベクトルの決定方法、装置、電子機器及び記憶媒体を提供する。
本開示一態様は、事前トレーニングモデルのプロンプトベクトルの決定方法を提供し、第1のプロンプトベクトル及びサンプルデータに対応する第1のベクトルを取得するステップと、事前トレーニングモデルに対して異なるN回の枝刈り処理を実行して、N個の枝刈りモデルを取得するステップであって、Nは1よりも大きい任意の整数であるステップと、前記第1のベクトルと前記第1のプロンプトベクトルを融合してから、前記N個の枝刈りモデルにそれぞれ入力して、前記第1のプロンプトベクトルに対応する第1のスコアを取得するステップと、前記第1のスコアに基づいて、前記第1のプロンプトベクトルを修正して、第2のプロンプトベクトルを決定するステップと、前記第2のプロンプトベクトルに基づいて、前記サンプルデータに対応するターゲットプロンプトベクトルが決定されるまで、前記第1のスコアを取得する操作の実行に戻るステップと、を含む。
本開示の別の態様は、事前トレーニングモデルのプロンプトベクトルの決定装置を提供し、第1のプロンプトベクトル及びサンプルデータに対応する第1のベクトルを取得するための第1の取得モジュールと、事前トレーニングモデルに対して異なるN回の枝刈り処理を実行して、N個の枝刈りモデルを取得するための処理モジュールであって、Nは1よりも大きい任意の整数である処理モジュールと、前記第1のベクトルと前記第1のプロンプトベクトルを融合してから、前記N個の枝刈りモデルにそれぞれ入力して、前記第1のプロンプトベクトルに対応する第1のスコアを取得するための第2の取得モジュールと、前記第1のスコアに基づいて、前記第1のプロンプトベクトルを修正して、第2のプロンプトベクトルを決定するための修正モジュールと、前記第2のプロンプトベクトルに基づいて、前記サンプルデータに対応するターゲットプロンプトベクトルが決定されるまで、前記第1のスコアを取得する操作の実行に戻るための決定モジュールと、を備える。
本開示の別の態様は、電子機器を提供し、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが上記の一態様の実施例に記載の事前トレーニングモデルのプロンプトベクトルの決定方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本開示の別の態様は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに上記の一態様の実施例に記載の事前トレーニングモデルのプロンプトベクトルの決定方法を実行させる。
本開示の別の態様は、コンピュータプログラムを提供し、上記コンピュータプログラムがプロセッサによって実行される場合、上記の一態様の実施例に記載の事前トレーニングモデルのプロンプトベクトルの決定方法が実現される。
本開示によって提供される事前トレーニングモデルのプロンプトベクトルの決定方法、装置、電子機器及び記憶媒体は、第1のプロンプトベクトル及びサンプルデータに対応する第1のベクトルを取得し、そして事前トレーニングモデルに対して異なるN回の枝刈り処理を実行して、N個の枝刈りモデルを取得し、第1のベクトルと第1のプロンプトベクトルを融合してから、N個の枝刈りモデルにそれぞれ入力して、第1のプロンプトベクトルに対応する第1のスコアを取得し、第1のスコアに基づいて、第1のプロンプトベクトルを修正して、第2のプロンプトベクトルを決定し、第2のプロンプトベクトルに基づいて、サンプルデータに対応するターゲットプロンプトベクトルが決定されるまで、第1のスコアを取得する操作の実行に戻る。これにより、サンプルデータに対応する第1のベクトルとプロンプトベクトルを融合してから、N個の枝刈りモデルにそれぞれ入力することにより、対応する第1のスコアを取得し、第1のスコアに基づいてプロンプトベクトルを修正して、次のプロンプトベクトルを決定し、新たに決定されたプロンプトベクトルに基づいて、ターゲットプロンプトベクトルが決定されるまで、第1のスコアを取得する操作の実行に戻ることにより、異なる複数の枝刈りモデルにより、複数の視点からプロンプトベクトルを最適化し、決定されたターゲットプロンプトベクトルをより包括的かつ信頼できるものにすることができ、ターゲットプロンプトベクトルの精度を向上させることができる。
なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していない。本出願の他の特徴は下記の明細書の記載を通して理解しやすくなる。
図面は、本出願をより良く理解するためのものであり、本開示を限定するものではない。
本開示の一実施例によって提供される事前トレーニングモデルのプロンプトベクトルの決定方法の概略フローチャートである。
本開示の一実施例によって提供される事前トレーニングモデルのプロンプトベクトルの決定方法の概略フローチャートである。
本開示の一実施例によって提供される事前トレーニングモデルのプロンプトベクトルの決定方法の概略フローチャートである。
本開示の一実施例によって提供される枝刈りモデルの模式図である。
本開示の一実施例によって提供される事前トレーニングモデルのプロンプトベクトルの決定過程の模式図である。
本開示の別の実施例によって提供される事前トレーニングモデルのプロンプトベクトルの決定装置の概略構成図である。
本開示の実施例の事前トレーニングモデルのプロンプトベクトルの決定方法を実現するための電子機器のブロック図である。
以下、図面と組み合わせて本開示の例示的な実施例を説明する。理解を容易にするために、その中には本発明の実施例の様々な詳細が含まれ、それらは単なる例示と見なされるべきである。したがって、当業者は、本発明の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができる。また、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
人工知能とは、コンピュータに人間のある思考過程及び知能行為(例えば、学習、推論、考え、計画など)をシミュレーションさせることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術との両方がある。人工知能ハードウェアテクノロジには、一般に、センサー、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などのテクノロジが含まれ、人工知能ハードウェア技術は、一般に、コンピュータビジョン技術、音声認識技術、自然言語処理技術及び学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの方面を含む。
自然言語処理とは、コンピュータを使用して人間の言語(中国語、英語など)を処理、理解、および使用することである。それはコンピュータサイエンスと言語学の間の学際的な課題であり、計算言語学と呼ばれることが多い。自然言語は、人間を他の動物と区別する基本的な記号であり、言語がなければ人間の思考は不可能なので、自然言語処理は人工知能の最高のタスクと領域を具現化し、つまり、コンピュータが自然言語を処理する能力を備えている場合にのみ、機械は真の知能を実現することができる。
深層学習とは、多層の人工ニューラルネットワークとそのトレーニング方法を指す。一層のニューラルネットワークは、入力として多数の行列数字を取り、非線形活性化法によって重みを取り、出力として別のデータセットを生成する。適切な行列数で多層の組織が互いにリンクされて、正確で複雑な処理のためのニューラルネットワーク「脳」が形成され、これは、人間が物体を認識して写真にラベルを付けるのと同じである。
以下、図面を参照して、本開示の実施例の事前トレーニングモデルのプロンプトベクトルの決定方法、装置、電子機器及び記憶媒体について説明する。
本開示では、関連技術において、事前トレーニングモデルのプロンプトベクトルが正確でないという問題を目指して、事前トレーニングモデルのプロンプトベクトルの決定方法を提供し、サンプルデータに対応する第1のベクトルとプロンプトベクトルを融合してから、N個の枝刈りモデルにそれぞれ入力することにより、プロンプトベクトルに対応する第1のスコアを取得し、第1のスコアに基づいてプロンプトベクトルを修正して、次のプロンプトベクトルを決定し、新たに決定されたプロンプトベクトルに基づいて、ターゲットプロンプトベクトルが決定されるまで、第1のスコアを取得する操作の実行に戻ることにより、異なる複数の枝刈りモデルにより、複数の視点からプロンプトベクトルを最適化し、決定されたターゲットプロンプトベクトルをより包括的かつ信頼できるものにすることができ、ターゲットプロンプトベクトルの精度を向上させることができる。また、本開示では、枝刈りモデルとプロンプトベクトルに対して順方向推論を行うことでターゲットプロンプトベクトルを決定することができるため、この過程には枝刈りモデル及びプロンプトベクトルの逆伝播と処理が含まれず、関連するデータ量が少ないため、コンピューティングリソースを節約し、構成と展開を容易にすることができる。
本開示の実施例の事前トレーニングモデルのプロンプトベクトルの決定方法は、本開示の実施例によって提供される事前トレーニングモデルのプロンプトベクトルの決定装置によって実行されてもよく、この装置は電子機器に構成されてもよい。
図1は本開示の実施例によって提供される事前トレーニングモデルのプロンプトベクトルの決定方法の概略フローチャートである。
図1に示すように、この事前トレーニングモデルのプロンプトベクトルの決定方法は、以下のステップを含む。
ステップ101では、第1のプロンプトベクトル及びサンプルデータに対応する第1のベクトルを取得する。
通常、プロンプト(prompt)は、追加のプロンプト情報を入力としてテキストに追加し、予測などの下流タスクを言語モデルタスクに変換し、言語モデルの予測結果を元の下流タスクの予測結果に変換することと理解できる。したがって、本開示の実施例におけるプロンプトは、プロンプトベクトル情報として理解することができる。
ここで、第1のプロンプトベクトルは、ランダムに初期化されたベクトルであってもよいし、ベクトル空間でランダムにサンプリングされたベクトルのセットを線形変換して生成されたプロンプトベクトルなどであってもよく、本開示では限定されない。
また、第1のベクトルは、サンプルデータに対応するベクトルであってもよい。例えば、サンプルデータがテキストデータである場合、第1のベクトルは、このテキストデータに対応するテキストベクトルにすることができ、例えば、ベクトルボキャブラリからテキストデータに対応する第1のベクトルを取得することができ、または他の方法によって、このサンプルデータに対応する第1のベクトルを取得することもできるが、本開示では限定されない。
また、サンプルデータの種類は複数であってもよく、例えばテキストデータであってもよいし、画像データや音声データ等であってもよい。また、通常、サンプルデータは複数あり、例えば、複数のテキストタイプのサンプルデータであり、各サンプルデータは、ぞれぞれに対応する第1のベクトルがあり、それは、わずか16個、20個のサンプルデータが含まれる小さなサンプルデータであってもよいし、大きなサンプルデータなどであってもよいが、本開示では限定されない。
ステップ102では、事前トレーニングモデルに対して異なるN回の枝刈り処理を実行して、N個の枝刈りモデルを取得し、ここで、Nは、1より大きい任意の整数である。
ここで、多くの種類の枝刈り処理があり得、例えば、事前トレーニングモデルのニューロンを枝刈りしてもよく、他の任意の望ましい枝刈り方法を使用して事前トレーニングモデルのニューロンを枝刈りしてもよく、本開示では限定されない。
また、事前トレーニングモデルは、任意のタイプの事前トレーニングモデルであってもよく、例えば、BERT(bidirection ecoder representations from transformers、双方向エンコーダー)又はELMo(embeddings from language models、言語モデルの埋め込み)などであってもよく、本開示では限定されない。
また、事前トレーニングモデルのパラメーターは多数である可能性があり、タスクに関係のない冗長なパラメータが存在する可能性があるため、本開示の実施例では、事前トレーニングモデルを枝刈りして、枝刈りされた枝刈りモデルを得ることができる。なお、事前トレーニングモデルに対して異なるN回の枝刈り処理を実行することによって得られるN個の枝刈りモデルは、通常、互いに異なるN個の枝刈りモデルである。
ステップ103では、第1のベクトルと第1のプロンプトベクトルを融合してから、N個の枝刈りモデルにそれぞれ入力して、第1のプロンプトベクトルに対応する第1のスコアを取得する。
例えば、第1のベクトルと第1のプロンプトベクトルを融合してから、事前トレーニングモデルにそれぞれ入力して、N個の枝刈りモデルによる処理後、N個の第1のベクトルにそれぞれ対応する予測ラベル、即ち、N個の枝刈りモデルにおけるこのサンプルデータにそれぞれ対応する予測ラベルを出力することができ、そして、各予測ラベルをこのサンプルデータに対応するラベリングラベルと照合して、両者の差を決定し、その差に基づいて、第1のプロンプトベクトルに対応する第1のスコアなどを決定することができるが、本開示では限定されない。
また、第1のスコアは、複数の枝刈りモデルでのプロンプトベクトルの状況を統合し、複数の視点と包括性を有するため、プロンプトベクトルをより適切に予測することができる。
ステップ104では、第1のスコアに基づいて、第1のプロンプトベクトルを修正して、第2のプロンプトベクトルを決定する。
例えば、第1のプロンプトベクトル内の各要素をそれぞれ第1のスコアに加算することにより、この第1のプロンプトベクトルを修正し、修正されたベクトルを、第2のプロンプトベクトルとして決定することができるが、本開示では限定されない。
これにより、本開示の実施例では、枝刈り処理された異なる複数の枝刈りモデルを使用してプロンプトベクトルをそれぞれ予測することができ、その後、多視点情報を含む第1のスコアを使用してプロンプトベクトルを最適化することができ、それによってプロンプトベクトルの精度を向上させることができる。
ステップ105では、第2のプロンプトベクトルに基づいて、サンプルデータに対応するターゲットプロンプトベクトルが決定されるまで、第1のスコアを取得する操作の実行に戻る。
ここで、ターゲットプロンプトベクトルは、このサンプルデータに対応する比較的正確なプロンプトベクトルであり得、このターゲットプロンプトベクトルを使用すると、サンプルデータをより正確かつ確実に処理することができる。そのため、サンプル数の少ない学習シナリオでも、より優れた学習効果などを効果的に維持することができる。本開示はこれを限定しない。
選択的に、指定されたトレーニングステップ数に達したとき、上記の第1のスコアを取得する操作の実行を停止してもよく、又は、指定されたトレーニング周期に達した後、上記の第1のスコアを取得する操作の実行を停止してもよく、その後、トレーニング中に得られた複数のプロンプトベクトルの中からターゲットプロンプトベクトルを決定することができ、本開示では限定されない。
例えば、第2のプロンプトベクトルが決定された後、サンプルデータに対応する第1のベクトルと第2のプロンプトベクトルを融合し、融合されたベクトルをN個の枝刈りモデルにそれぞれ入力して、第2のプロンプトベクトルに対応する第1のスコアを取得し、その後、この第1のスコアに基づいて、第2のプロンプトベクトルを修正して、第3のプロンプトベクトルを決定し、その後、第3のプロンプトベクトルに基づいて、サンプルデータに対応するターゲットプロンプトベクトルが決定されるまで、第1のスコアを取得する操作の実行に戻ることができるが、本開示では限定されない。
なお、本開示によって提供される事前トレーニングモデルのプロンプトベクトルの決定方法は、テキスト分類、質問と応答のペアの生成、テキスト理解など、任意の事前トレーニングモデルのプロンプトベクトルの決定シナリオに適用可能であるが、本開示では限定されない。
以下、テキスト分類への適用を例として、本開示によって提供される事前トレーニングモデルのプロンプトベクトルの決定過程を簡単に説明する。
なお、まず、テキストデータを処理して、テキストデータに対応する第1のベクトルを生成し、第1のプロンプトベクトルを取得することができる。また、Nは、1より大きい任意の整数であってもよく、Nの値が5の場合、事前トレーニングモデルがBERTの場合、BERTを5回個別に枝刈りして、例えば、異なるニューロンをそれぞれ枝刈りするなどして、5つの枝刈り処理された枝刈りモデルを取得することができる。その後、テキストデータに対応する第1のベクトルと第1のプロンプトベクトルを融合してから、上記の5つの枝刈りモデルにそれぞれ入力し、5つの枝刈りモデルによる処理後、第1のプロンプトベクトルに対応する第1のスコアを取得することができる。その後、第1のスコアに基づいて、第1のプロンプトベクトルを修正して、第2のプロンプトベクトルを決定することができる。その後、第2のプロンプトベクトルとテキストデータに対応する第1のベクトルを融合してから、上記の5つの枝刈りモデルにそれぞれ入力して、第2のプロンプトベクトルに対応する第1のスコアを取得することができる。その後、第1のスコアに基づいて、第2のプロンプトベクトルを修正して、第3のプロンプトベクトルを決定することができる。その後、第3のプロンプトベクトルに基づいて、テキストデータに対応するターゲットプロンプトベクトルが決定されるまで、例えば、第2のプロンプトベクトルの過程を参照して、前記第1のスコアを取得する操作の実行に戻ることができる。
なお、上記の例は、例示的な説明にすぎず、本開示の実施例における事前トレーニングモデルのプロンプトベクトルの決定プロセスに対する限定とすることはできない。
本開示の実施例は、第1のプロンプトベクトル及びサンプルデータに対応する第1のベクトルを取得し、事前トレーニングモデルに対して異なるN回の枝刈り処理を実行して、N個の枝刈りモデルを取得し、第1のベクトルと第1のプロンプトベクトルを融合してから、N個の枝刈りモデルにそれぞれ入力して、第1のプロンプトベクトルに対応する第1のスコアを取得し、第1のスコアに基づいて、第1のプロンプトベクトルを修正して、第2のプロンプトベクトルを決定し、第2のプロンプトベクトルに基づいて、前記サンプルデータに対応するターゲットプロンプトベクトルが決定されるまで、第1のスコアを取得する操作の実行に戻る。これにより、サンプルデータに対応する第1のベクトルとプロンプトベクトルを融合してから、N個の枝刈りモデルにそれぞれ入力することにより、対応する第1のスコアを取得し、第1のスコアに基づいてプロンプトベクトルを修正して、次のプロンプトベクトルを決定し、新たに決定されたプロンプトベクトルに基づいて、ターゲットプロンプトベクトルが決定されるまで、第1のスコアを取得する操作の実行に戻ることにより、異なる複数の枝刈りモデルにより、複数の視点からプロンプトベクトルを最適化し、決定されたターゲットプロンプトベクトルをより包括的かつ信頼できるものにすることができ、ターゲットプロンプトベクトルの精度を向上させることができる。
図2は本開示の実施例によって提供される事前トレーニングモデルのプロンプトベクトルの決定方法の概略フローチャートであり、図2に示すように、この事前トレーニングモデルのプロンプトベクトルの決定方法は、以下のステップを含む。
ステップ201では、第1のベクトルと第N+1のプロンプトベクトルを融合してから、N個の枝刈りモデルにそれぞれ入力して、第N+1のプロンプトベクトルに対応する第1のスコアを取得する。
ここで、第1のベクトルは、サンプルデータに対応するベクトルであり得る。
なお、本開示では、まず、第1のプロンプトベクトル及びサンプルデータに対応する第1のベクトルを取得し、その後、事前トレーニングモデルに対して異なるN回の枝刈り処理を実行して、N個の枝刈りモデルを取得し、その後、第1のベクトルと第1のプロンプトベクトルを融合してから、N個の枝刈りモデルにそれぞれ入力して、第1のプロンプトベクトルに対応する第1のスコアを取得し、その後、第1のスコアに基づいて、第1のプロンプトベクトルを修正して、第2のプロンプトベクトルを決定し、第2のプロンプトベクトルに基づいて、上記第1のスコアを取得する操作の実行に戻ることができる。例えば、第N+1のプロンプトベクトルが決定された後、第1のベクトルと第N+1のプロンプトベクトルを融合してから、N個の枝刈りモデルにそれぞれ入力して、第N+1のプロンプトベクトルに対応する第1のスコアを取得することができる。
ステップ202では、第N+1のプロンプトベクトルに隣接する最初のL個のプロンプトベクトル及び最初のL個のプロンプトベクトルのうちの各プロンプトベクトルに対応する第1のスコアを取得する。
ここで、Lは、N以下で1より大きい正の整数であり、Nは、1より大きい正の整数である。
なお、各プロンプトベクトルは、対応する第1のスコアを有し、異なるプロンプトベクトルに対応する第1のスコアは、同じであっても異なっていてもよいが、本開示では限定されない。
ステップ203では、最初のL個のプロンプトベクトルのうちの各プロンプトベクトルに対応する第1のスコアに基づいて、第N+1のプロンプトベクトルの修正モードを決定する。
なお、プロンプトベクトルに対応する第1のスコアが異なる場合、通常、第N+1のプロンプトベクトルの修正モードも異なる場合がある。
ここで、修正モードは、ベクトルの修正方向、又はベクトルの修正値などであっても良いが、本開示では限定されない。
なお、最初のL個のプロンプトベクトルのうち隣接する2つのプロンプトベクトルにそれぞれ対応する第1のスコア間の第1の差に基づいて、第N+1のプロンプトベクトル内の各要素の修正モードを決定することができる。
選択的に、まず、最初のL個のプロンプトベクトルのうち隣接する2つのプロンプトベクトルにそれぞれ対応する第1のスコア間の第1の差を決定し、各第1の差に含まれる正の値の数が1つの場合、正の値に対応する2つのプロンプトベクトルの各対応する要素間の差を決定し、その後、2つのプロンプトベクトルの各対応する要素間の差に基づいて、第N+1のプロンプトベクトル内の各要素の修正モードを決定することができる。
例えば、Nの値が5でLの値が4の場合、第2のプロンプトベクトルと第1のプロンプトベクトルにそれぞれ対応する第1のスコア間の第1の差が-7であり、第3のプロンプトベクトルと第2のプロンプトベクトルにそれぞれ対応する第1のスコア間の第1の差が-2であり、第4のプロンプトベクトルと第3のプロンプトベクトルにそれぞれに対応する第1のスコア間の第1の差が5であり、整数の値には「5」が1つしかない場合、第4のプロンプトベクトルと第3のプロンプトベクトルの各対応する要素間の差をさらに決定することができる。
第4のプロンプトベクトルと第3のプロンプトベクトルとの第1の対応する要素間の差が-5であり、第2の対応する要素間の差が+8であり、第3の対応する要素間の差が+11である場合、第N+1のプロンプトベクトルにおいて、第1の要素の修正の値が、-2、-8などの負の数になる可能性があり、第2の要素の修正の値が、+3、+9などの正の数になる可能性があり、第3の要素の修正の値が、+6、+15などの正の数になる可能性があると決定することができる。第N+1のプロンプトベクトルの修正モードが、減少、増加、増加であると決定することができ、または、第N+1のプロンプトベクトルの修正モードが、-3、+5、+13などであると決定することができる。本開示では限定されない。
選択的に、まず、最初のL個のプロンプトベクトルのうち隣接する2つのプロンプトベクトルにそれぞれ対応する第1のスコア間の第1の差を決定し、各第1の差に含まれる正の値の数が複数の場合、最も大きい正の値に対応する2つのプロンプトベクトルの各対応する要素間の差を決定し、その後、2つのプロンプトベクトルの各対応する要素間の差に基づいて、第N+1のプロンプトベクトル内の各要素の修正モードを決定することができる。
例えば、Nの値が5でLの値が4の場合、第2のプロンプトベクトルと第1のプロンプトベクトルにそれぞれ対応する第1のスコア間の第1の差が+3であり、第3のプロンプトベクトルと第2のプロンプトベクトルにそれぞれ対応する第1のスコア間の第1の差が+10であり、第4のプロンプトベクトルと第3のプロンプトベクトルにそれぞれ対応する第1のスコア間の第1の差が-8であり、2つの正の数の値がある場合、最も大きい正の値に対応する2つのプロンプトベクトルの各対応する要素間の差をさらに決定することができ、即ち、第3のプロンプトベクトルと第2のプロンプトベクトルの各対応する要素間の差を決定することができる。
その後、第3のプロンプトベクトルと第2のプロンプトベクトルの各対応する要素間の差に基づいて、第N+1のプロンプトベクトル内の各要素の修正モードを決定し、例えば、第N+1のプロンプトベクトル内の各要素の修正モードは、増加、減少、増加であるなどの各要素の修正方向であると決定することができ、または、第N+1のプロンプトベクトル内の各要素の修正モードは、+2、-1、+11であるなどの各要素の修正値であると決定することもできるが、本開示では限定されない。
なお、最初のL個のプロンプトベクトルのうち隣接する2つのプロンプトベクトルにそれぞれ対応する第1のスコア間の第1の差には、複数の最も大きい正の値が含まれる可能性があり、この場合、この複数の最も大きい正の値に対応するプロンプトベクトルと第N+1のプロンプトベクトルとの間の関係をさらに決定し、ひいては、第N+1のプロンプトベクトル内の各要素の修正モードを決定することができる。
選択的に、各第1の差に含まれる最も大きい正の値の数が複数の場合、まず、複数の最も大きい正の値にそれぞれ対応する2つのプロンプトベクトルを決定し、その後、2つのプロンプトベクトルのうちの後のプロンプトベクトルに対応する番号値とN+1の間の第2の差を決定し、その後、最も小さい第2の差に対応する2つのプロンプトベクトルの各対応する要素間の差に基づいて、第N+1のプロンプトベクトル内の各要素の修正モードを決定することができる。
例えば、Nの値が6でLの値が5の場合、第2のプロンプトベクトルと第1のプロンプトベクトルにそれぞれ対応する第1のスコア間の第1の差が+3であり、第3のプロンプトベクトルと第2のプロンプトベクトルにそれぞれ対応する第1のスコア間の第1の差が+10であり、第4のプロンプトベクトルと第3のプロンプトベクトルにそれぞれ対応する第1のスコア間の第1の差が-2であり、第5のプロンプトベクトルと第4のプロンプトベクトルにそれぞれ対応する第1のスコア間の第1の差が+10であり、最も大きい正の値の数が2つある場合、最も大きい正の値に対応する2つのプロンプトベクトルのうちの後のプロンプトベクトルに対応する番号値とN+1の間の第2の差をさらに決定することができる。ここで、第3のプロンプトベクトルとN+1間の第2の差が4であり、第5のプロンプトベクトルとN+1間の第2の差が2である場合、最も小さい第2の差である「2」に対応する第5のプロンプトベクトルと第4のプロンプトベクトルの各対応する要素間の差に基づいて、第N+1のプロンプトベクトル内の各要素の修正モードを決定することができ、即ち第7のプロンプトベクトル内の各要素の修正モードなどを決定することができるが、本開示では限定されない。
ステップ204では、第N+1のプロンプトベクトルの修正モードに基づいて、第N+1のプロンプトベクトルを修正して、第N+2のプロンプトベクトルを生成する。
例えば、第N+1のプロンプトベクトルの修正モードが+3、-1、+8であり、第N+1のプロンプトベクトルが[a,b,c]である場合、第N+2のプロンプトベクトルは[a+3,b-1,c+8]であり得る。または、第N+1のプロンプトベクトルの修正モードが増加、減少、増加であり、第N+1のプロンプトベクトルが[a,b,c]である場合、第N+2のプロンプトベクトルは[a+10,b-5,c+13]であり得るが、本開示では限定されない。
ステップ205では、第N+2のプロンプトベクトルに基づいて、サンプルデータに対応するターゲットプロンプトベクトルが決定されるまで、上記第1のスコアを取得する操作の実行に戻る。
なお、本実施例における事前トレーニングモデルのプロンプトベクトルの決定方法は、テキスト分類、質問と応答のペアの生成、テキスト理解などのシナリオに適用可能であり、具体的な適用過程は、他の各実施例の説明を参照することができるが、ここでは説明を省略する。
本開示の実施例は、第1のベクトルと第N+1のプロンプトベクトルを融合してから、N個の枝刈りモデルにそれぞれ入力して、第N+1のプロンプトベクトルに対応する第1のスコアを取得し、その後、第N+1のプロンプトベクトルに隣接する最初のL個のプロンプトベクトル及び最初のL個のプロンプトベクトルのうちの各プロンプトベクトルに対応する第1のスコアを取得し、最初のL個のプロンプトベクトルのうちの各プロンプトベクトルに対応する第1のスコアに基づいて、第N+1のプロンプトベクトルの修正モードを決定し、その後、第N+1のプロンプトベクトルの修正モードに基づいて、第N+1のプロンプトベクトルを修正して、第N+2のプロンプトベクトルを生成し、第N+2のプロンプトベクトルに基づいて、サンプルデータに対応するターゲットプロンプトベクトルが決定されるまで、上記第1のスコアを取得する操作の実行に戻ることができる。これにより、異なる複数の枝刈りモデルに基づいて、まず、第N+1のプロンプトベクトルに隣接する最初のL個のプロンプトベクトルのうちの各プロンプトベクトルに対応する第1のスコアを決定し、その後、第1のスコアに基づいて、第N+1のプロンプトベクトルの修正モードを決定し、この修正モードに基づいて、それを修正して、第N+2のプロンプトベクトルを生成し、その後、第N+2のプロンプトベクトルに基づいて、ターゲットプロンプトベクトルが決定されるまで、第1のスコアを取得する操作の実行に戻ることにより、異なる複数の枝刈りモデルに対応する第1のスコアにより、複数の視点からプロンプトベクトルを最適化し、決定されたターゲットプロンプトベクトルをより包括的かつ信頼できるものにすることができ、ターゲットプロンプトベクトルの精度を向上させることができる。
図3は本開示の実施例によって提供される事前トレーニングモデルのプロンプトベクトルの決定方法の概略フローチャートであり、図3に示すように、この事前トレーニングモデルのプロンプトベクトルの決定方法は、以下のステップを含む。
ステップ301では、第1のプロンプトベクトル及びサンプルデータに対応する第1のベクトルを取得する。
ステップ302では、枝刈りされるニューロンの数mを決定し、mは任意の正の整数である。
ここで、mの値は、事前に設定されてもよく、または実際の使用中に調整されてもよく、例えば、事前トレーニングモデルのニューロンの数や層数などに基づいて調整されてもよいが、本開示では限定されない。
ステップ303では、枝刈りされるニューロンの数mに基づいて、事前トレーニングモデルに対して異なるN回の枝刈り処理を実行して、N個の枝刈りモデルを取得する。
ここで、2つの枝刈りモデルごとに、少なくとも1つのニューロンが異なる。
ここで、枝刈りされるニューロンの数mが決定された後、事前トレーニングモデルに対して異なるN回の枝刈り処理を実行し、1回の枝刈り過程でm個のニューロンが枝刈りされ、これらN回の枝刈り処理で、2回の枝刈り処理ごとに枝刈りされたm個のニューロンのうち少なくとも1つが異なるため、N個の枝刈りモデルが得られ、このN個の枝刈りモデルのうち2つの枝刈りモデルごとに少なくとも1つのニューロンが異なる。
例えば、枝刈りされるニューロンの数mが決定された後、異なるランダム枝刈り戦略を使用して、事前トレーニングモデルに対して異なるN回の枝刈り処理を実行して、N個の枝刈りモデルを取得することができる。例えば、事前トレーニングモデルを別の方法で枝刈りし、生成された2つの枝刈りモデルを図3Aに示し、ここで、pruned neronは枝刈りされるニューロンを表し、pruneは枝刈り操作を表す。
また、剪枝刈り順序に応じて、異なる枝刈り処理を行うこともできる。例えば、事前トレーニングモデルの第1のニューロンから始めて、合計m個のニューロンを枝刈りして第1の枝刈りモデルを生成し、事前トレーニングモデルの第2のニューロンから始めて、合計m個のニューロンを枝刈りして、第2の枝刈りモデルを生成し、同様に、N回の枝刈り処理を行って、N個の枝刈りモデルを生成することができる。あるいは、事前トレーニングモデルの第1のネットワーク層からm個のニューロンをランダムに枝刈りして、第1の枝刈りモデルを生成し、事前トレーニングモデルの第2のネットワーク層からm個のニューロンをランダムに枝刈りして、第2の枝刈りモデルを生成し、同様に、N回の枝刈り処理を行って、N個の枝刈りモデルを生成することができる。
なお、上述の枝刈り方法は、例示的な説明にすぎず、本開示の実施例においてN個の枝刈りモデルを取得する方法を限定するものとすることはできない。
これによって、本開示の実施例では、事前トレーニングモデルに対して異なるN回の枝刈り処理を実行して、N個の枝刈りモデルを取得することで、事前トレーニングモデのパラメーターを可能な限り使用し、事前トレーニングモデのパラメーターの使用効率を高めることができ、N個の枝刈りモデルが互いに異なるため、プロンプトベクトルを多視点および全方位から最適化することができ、プロンプトベクトルの精度と信頼性が保証される。
ステップ304では、第1のベクトルと第1のプロンプトベクトルを融合してから、N個の枝刈りモデルにそれぞれ入力して、各枝刈りモデルから出力された予測ラベルを取得する。
ステップ305では、各予測ラベルとラベリングラベルの差に基づいて、各枝刈りモデルでの第1のプロンプトベクトルに対応する第2のスコアを決定する。
例えば、第1のベクトルと第1のプロンプトベクトルを融合してから、事前トレーニングモデルにそれぞれ入力し、N個の枝刈りモデルによる処理後、N個の枝刈りモデルからそれぞれ出力された予測ラベルを取得し、そして、各予測ラベルをこのサンプルデータに対応するラベリングラベルと照合して、両者の差を決定し、その差に基づいて、各枝刈りモデルでの第1のプロンプトベクトルに対応する第2のスコアを決定することができる。
例えば、損失関数を使用して、各枝刈りモデルでの各サンプルデータに対応する予測ラベルとラベリングラベルとの間の損失値を決定し、この損失値に基づいて、各枝刈りモデルでの第1のプロンプトベクトルに対応する第2のスコアを決定することができる。あるいは、各枝刈りモデルでの各サンプルデータに対応する予測ラベルとラベリングラベルとの差に応じて正解率や総合評価指数などを決定し、それを各枝刈りモデルでの第1のプロンプトベクトルに対応する第2のスコアとして使用することもできるが、本開示では限定されない。
ステップ306では、複数の第2のスコアを平均化して、第1のプロンプトベクトルに対応する第1のスコアを決定する。
ここで、N個の枝刈りモデルにそれぞれ対応する第2のスコアが決定された後、このN個の第2のスコアを平均化することができ、得られた結果は、第1のプロンプトベクトルに対応する第1のスコアである。
選択的に、複数の第2のスコアに対して、分散処理などの他の処理を実行することができ、得られた結果は、第1のプロンプトベクトルに対応する第1のスコアであり、本開示では限定されない。
ステップ307では、第1のスコアに基づいて、第1のプロンプトベクトルを修正して、第2のプロンプトベクトルを決定する。
ステップ308では、第2のプロンプトベクトルに基づいて、サンプルデータに対応するターゲットプロンプトベクトルが決定されるまで、上記第1のスコアを取得する操作の実行に戻る。
選択的に、サンプルデータに対応するターゲットプロンプトベクトルを決定するプロセスにおいて、NES(natural evolution strategy、自然進化戦略)、CMAES(covariance matrix adaptation evolution strategy、共分散行列自己適応進化戦略)などの進化アルゴリズムを使用して、プロンプトベクトルを検索および最適化することができ、あるいは、任意の望ましいアルゴリズムを使用してプロンプトベクトルを検索および最適化することができ、本開示では限定されない。
選択的に、サンプルデータに対応するターゲットプロンプトベクトルを決定するプロセスにおいて、まず、候補プロンプトベクトルのシーケンスを記録することができ、ここで、候補プロンプトベクトルのシーケンスのうち隣接する2つの候補プロンプトベクトルに対応する番号値の間の第3の差はKであり、Kは正の整数であり、その後、検証データに対応する第2のベクトルと候補プロンプトベクトルを融合してから、N個の枝刈りモデルにそれぞれ入力して、各枝刈りモデルから出力された予測ラベルを取得し、その後、各予測ラベルとラベリングラベルの差に基づいて、候補プロンプトベクトルに対応する第1のスコアを決定し、その後、スコア値が最も高い第1のスコアに対応する候補プロンプトベクトルを、ターゲットプロンプトベクトルとして決定することができる。
なお、第1のプロンプトベクトル、第2のプロンプトベクトル、……、第Nのプロンプトベクトルが決定された後、この複数のプロンプトベクトルから、複数の候補プロンプトベクトルを選択することができる。例えば、プロンプトベクトルは合計50個あり、第3の差Kの値が10である場合、第1のプロンプトベクトル、第11のプロンプトベクトル、第21のプロンプトベクトル、第31のプロンプトベクトル、及び第41のキューベクトルを候補プロンプトベクトルとして、候補プロンプトベクトルのシーケンスを構成することができ、または、第3のプロンプトベクトル、第13プロンプトベクトル、第23プロンプトベクトル、第33プロンプトベクトル、及び第43プロンプトベクトルを候補プロンプトベクトルとして使用することもできるが、本開示では限定されない。
また、第2のベクトルは、検証データに対応するベクトルであり得、第2のベクトルと候補プロンプトベクトルとの融合には様々な方法があり得る。例えば、両者は継ぎ合わされて融合されてもよいし、他の方法で融合されてもよいが、本開示では限定されない。
なお、第2のベクトルと候補プロンプトベクトルを融合した後、N個の枝刈りモデルにそれぞれ入力し、N個の枝刈りモデルによる処理後、第2のベクトル、即ち検証データに対応する予測ラベルを出力し、その後、この予測ラベルをこの検証データに対応するラベリングラベルと照合して、両者の差を決定し、その差に基づいて、この候補プロンプトベクトルに対応する第1のスコアを決定することができる。例えば、損失関数を使用して、予測ラベルとラベリングラベルの間の損失値を決定し、その後、この損失値に基づいて、対応する第1のスコアを決定することができる。または、予測ラベルとラベリングラベルの差に基づいて、正解率や総合評価指数などを決定し、それを対応する第1のスコアとして使用することもできるが、本開示では限定されない。
例えば、候補プロンプトベクトル1に対応する第1のスコアが+7であり、候補プロンプトベクトル2に対応する第1のスコアが-3であり、候補プロンプトベクトル3に対応する第1のスコアが+9である場合、「候補プロンプトベクトル3」を、ターゲットプロンプトベクトルとして決定することができるが、本開示では限定されない。
なお、上記の例は、例示的な説明にすぎず、本開示の実施例におけるターゲットプロンプトベクトルの決定方法などに対する限定とすることはできない。
なお、本開示によって提供される事前トレーニングモデルのプロンプトベクトルの決定方法は、テキスト分類、質問と応答のペアの生成、テキスト理解など、任意の事前トレーニングモデルのプロンプトベクトルの決定シナリオに適用可能であるが、本開示では限定されない。
以下、テキスト分類を例として、図3Bと組み合わせて、本開示によって提供される事前トレーニングモデルのプロンプトベクトルの決定過程を説明する。
まず、ベクトルintrinsic embeddingのセットを、ベクトルス空間でランダムにサンプリングし、その後、それを線形処理Wして、第1のプロンプトベクトルを生成することができる。その後、第1のプロンプトベクトル[P1 … Pm]とテキストデータ[Tok 1 Tok 2 … Tok N]に対応する第1のベクトル[E1 E2 … EN]を融合してから、N個の枝刈りモデルPruned PLMにそれぞれ入力して、第1のプロンプトベクトルに対応する第1のスコアを取得し、その後、第1のスコアに基づいて、第1のプロンプトベクトルを修正して、第2のプロンプトベクトルを決定し、その後、第2のプロンプトベクトルに基づいて、テキストデータに対応するターゲットプロンプトベクトルが決定されるまで、上記第1のスコアを取得する操作の実行に戻ることができる。
選択的に、進化学習アルゴリズム(evolutionary agent)を使用して、第1のスコアに対して解析処理を実行することによって対応するベクトルを出力し、その後、線形変換を実行してプロンプトベクトルを生成することもできるが、本開示では限定されない。
また、第1のプロンプトベクトルとテキストデータに対応する第1のベクトルを融合し、例えば、第1のプロンプトベクトル[P1 … Pm]をテキストデータ[Tok 1 Tok 2 … Tok N]に対応する第1のベクトル[E1 E2 … EN]の左側に接合し、その後、それを第1の枝刈りモデルに入力することができる。ここで、E[CLS]を、第1のプロンプトベクトルとテキストデータに対応する第1のベクトルが融合されたベクトルとして使用し、それを第1の枝刈りモデルPruned PLM-1に入力し、第1の枝刈りモデルによる処理後、例えば、入力[CLS]を線形分類器で処理した後、予測ラベル
をテキストデータyに対応するラベリングラベルと照合して、第1の枝刈りモデルでの第1のプロンプトベクトルに対応する第2のスコアscoreを決定することができる。同様に、第1のプロンプトベクトルとテキストデータに対応する第1のベクトルを融合した後、残りの各枝刈りモデルにそれぞれ入力して、複数の第2のスコアを取得し、その後、この複数の第2のスコアを平均化して、第1のプロンプトベクトルに対応する第1のスコアを生成することができる。
その後、進化学習アルゴリズムを使用して第1のスコアを解析して、対応するベクトルを出力し、その後、線形変換を実行して、第2のプロンプトベクトルを生成することができる。そして、第2のプロンプトベクトルに基づいて、テキストデータに対応するターゲットプロンプトベクトルが決定されるまで、上記第1のスコアを取得する操作の実行に戻ることができる。
ここで、上記第1のスコアを取得する操作の実行に戻る過程には、いくつかの場合がある。
以下、Nの値が5であることを例として、第1のスコアを取得する操作について簡単に説明する。
例えば、Nの値が5でLの値が4の場合、まず、第6のプロンプトベクトルに隣接する最初の4つのプロンプトベクトル及びそれぞれに対応する第1のスコア、即ち第2のプロンプトベクトルに対応する第1のスコア、第3のプロンプトベクトルに対応する第1のスコア、第4のプロンプトベクトルに対応する第1のスコア及び第5のプロンプトベクトルに対応する第1のスコアを取得し、その後、この4つのプロンプトベクトルのうちの各プロンプトベクトルに対応する第1のスコアに基づいて、第6のプロンプトベクトルの修正モードを決定し、その後、この修正モードに基づいて、第6のプロンプトベクトルを修正して、第7のプロンプトベクトルを生成することができる。そして、第7のプロンプトベクトルに基づいて、ターゲットプロンプトベクトルが決定されるまで、上記第1のスコアを取得する操作の実行に戻ることができる。なお、上記の例は、例示的な説明にすぎず、本開示の実施例における事前トレーニングモデルのプロンプトベクトルの決定方法に対する限定とすることはできない。
本開示の実施例は、第1のプロンプトベクトル及びサンプルデータに対応する第1のベクトルを取得し、事前トレーニングモデルに対して異なるN回の枝刈り処理を実行して、N個の枝刈りモデルを取得し、第1のベクトルと第1のプロンプトベクトルを融合してから、N個の枝刈りモデルにそれぞれ入力して、第1のプロンプトベクトルに対応する第1のスコアを取得し、第1のスコアに基づいて、第1のプロンプトベクトルを修正して、第2のプロンプトベクトルを決定し、第2のプロンプトベクトルに基づいて、サンプルデータに対応するターゲットプロンプトベクトルが決定されるまで、第1のスコアを取得する操作の実行に戻ることができる。これにより、サンプルデータに対応する第1のベクトルとプロンプトベクトルを融合してから、N個の枝刈りモデルにそれぞれ入力することにより、対応する第1のスコアを取得し、第1のスコアに基づいてプロンプトベクトルを修正して、次のプロンプトベクトルを決定し、新たに決定されたプロンプトベクトルに基づいて、ターゲットプロンプトベクトルが決定されるまで、第1のスコアを取得する操作の実行に戻ることにより、異なる複数の枝刈りモデルにより、複数の視点からプロンプトベクトルを最適化し、決定されたターゲットプロンプトベクトルをより包括的かつ信頼できるものにすることができ、ターゲットプロンプトベクトルの精度を向上させることができる。
上記実施例を実現するために、本開示は、事前トレーニングモデルのプロンプトベクトルの決定装置をさらに提供する。
図4は本開示の実施例によって提供される事前トレーニングモデルのプロンプトベクトルの決定装置の概略構成図である。
図4に示すように、この事前トレーニングモデルのプロンプトベクトルの決定装置400は、第1の取得モジュール410、処理モジュール420、第2の取得モジュール430、修正モジュール440及び決定モジュール450を備える。
ここで、第1の取得モジュール410は、第1のプロンプトベクトル及びサンプルデータに対応する第1のベクトルを取得する。
処理モジュール420は、事前トレーニングモデルに対して異なるN回の枝刈り処理を実行して、N個の枝刈りモデルを取得し、Nは、1より大きい任意の整数である。
第2の取得モジュール430は、前記第1のベクトルと前記第1のプロンプトベクトルを融合してから、前記N個の枝刈りモデルにそれぞれ入力して、前記第1のプロンプトベクトルに対応する第1のスコアを取得する。
修正モジュール440は、前記第1のスコアに基づいて、前記第1のプロンプトベクトルを修正して、第2のプロンプトベクトルを決定する。
決定モジュール450は、前記第2のプロンプトベクトルに基づいて、前記サンプルデータに対応するターゲットプロンプトベクトルが決定されるまで、前記第1のスコアを取得する操作の実行に戻る。
選択的に、前記決定モジュール450は、第N+1のプロンプトベクトルに隣接する最初のL個のプロンプトベクトル及び前記最初のL個のプロンプトベクトルのうちの各プロンプトベクトルに対応する第1のスコアを取得するための取得ユニットであって、Lは、N以下で1より大きい正の整数であり、Nは、1より大きい正の整数である取得ユニットと、前記最初のL個のプロンプトベクトルのうちの各プロンプトベクトルに対応する第1のスコアに基づいて、前記第N+1のプロンプトベクトルの修正モードを決定するための決定ユニットと、前記第N+1のプロンプトベクトルの修正モードに基づいて、前記第N+1のプロンプトベクトルを修正して、第N+2のプロンプトベクトルを生成するための生成ユニットとを備える。
選択的に、前記決定ユニットは、具体的に、最初のL個のプロンプトベクトルのうち隣接する2つのプロンプトベクトルにそれぞれ対応する第1のスコア間の第1の差を決定し、各第1の差に含まれる正の値の数が1つの場合、前記正の値に対応する2つのプロンプトベクトルの各対応する要素間の差を決定し、前記2つのプロンプトベクトルの各対応する要素間の差に基づいて、前記第N+1のプロンプトベクトル内の各要素の修正モードを決定する。
選択的に、前記決定ユニットは、具体的に、最初のL個のプロンプトベクトルのうち隣接する2つのプロンプトベクトルにそれぞれ対応する第1のスコア間の第1の差を決定し、各第1の差に含まれる正の値の数が複数の場合、最も大きい正の値に対応する2つのプロンプトベクトルの各対応する要素間の差を決定し、前記2つのプロンプトベクトルの各対応する要素間の差に基づいて、前記第N+1のプロンプトベクトル内の各要素の修正モードを決定する。
選択的に、前記決定ユニットは、具体的に、各第1の差に含まれる最も大きい正の値の数が複数の場合、複数の前記最も大きい正の値にそれぞれ対応する2つのプロンプトベクトルを決定し、前記2つのプロンプトベクトルのうちの後のプロンプトベクトルに対応する番号値と前記N+1の間の第2の差を決定し、最も小さい第2の差に対応する2つのプロンプトベクトルの各対応する要素間の差に基づいて、前記第N+1のプロンプトベクトル内の各要素の修正モードを決定する。
選択的に、前記第2の取得モジュール430は、具体的に、前記第1のベクトルと前記第1のプロンプトベクトルを融合してから、前記N個の枝刈りモデルにそれぞれ入力して、各前記枝刈りモデルから出力された予測ラベルを取得し、各前記予測ラベルとラベリングラベルの差に基づいて、各前記枝刈りモデルでの前記第1のプロンプトベクトルに対応する第2のスコアを決定し、複数の前記第2のスコアを平均化して、前記第1のプロンプトベクトルに対応する第1のスコアを決定する。
選択的に、前記決定モジュール450は、具体的に、候補プロンプトベクトルのシーケンスを記録し、前記候補プロンプトベクトルのシーケンスのうち隣接する2つの候補プロンプトベクトルに対応する番号値の間の第3の差はKであり、Kは正の整数であり、検証データに対応する第2のベクトルと候補プロンプトベクトルを融合してから、前記N個の枝刈りモデルにそれぞれ入力して、各前記枝刈りモデルから出力された予測ラベルを取得し、各前記予測ラベルとラベリングラベルの差に基づいて、前記候補プロンプトベクトルに対応する第1のスコアを決定し、スコア値が最も高い第1のスコアに対応する候補プロンプトベクトルを、ターゲットプロンプトベクトルとして決定する。
選択的に、前記第1の取得モジュール410、具体的に、枝刈りされるニューロンの数mを決定し、mは任意の正の整数であり、前記枝刈りされるニューロンの数mに基づいて、前記事前トレーニングモデルに対して異なるN回の枝刈り処理をそれぞれ実行して、N個の枝刈りモデルを取得し、2つの前記枝刈りモデルごとに、少なくとも1つのニューロンが異なる。
本開示の実施例における上記の各モジュールの機能及び具体的には実現原理は、上記の各方法の実施例を参照することができ、ここでは説明を省略する。
本開示の実施例の事前トレーニングモデルのプロンプトベクトルの決定装置は、第1のプロンプトベクトル及びサンプルデータに対応する第1のベクトルを取得し、事前トレーニングモデルに対して異なるN回の枝刈り処理を実行して、N個の枝刈りモデルを取得し、第1のベクトルと第1のプロンプトベクトルを融合してから、N個の枝刈りモデルにそれぞれ入力して、第1のプロンプトベクトルに対応する第1のスコアを取得し、第1のスコアに基づいて、第1のプロンプトベクトルを修正して、第2のプロンプトベクトルを決定し、第2のプロンプトベクトルに基づいて、前記サンプルデータに対応するターゲットプロンプトベクトルが決定されるまで、第1のスコアを取得する操作の実行に戻ることができる。これにより、サンプルデータに対応する第1のベクトルとプロンプトベクトルを融合してから、N個の枝刈りモデルにそれぞれ入力することにより、対応する第1のスコアを取得し、第1のスコアに基づいてプロンプトベクトルを修正して、次のプロンプトベクトルを決定し、新たに決定されたプロンプトベクトルに基づいて、ターゲットプロンプトベクトルが決定されるまで、第1のスコアを取得する操作の実行に戻ることにより、異なる複数の枝刈りモデルにより、複数の視点からプロンプトベクトルを最適化し、決定されたターゲットプロンプトベクトルをより包括的かつ信頼できるものにすることができ、ターゲットプロンプトベクトルの精度を向上させることができる。
本開示の実施例によれば、本開示は電子機器、および読み取り可能な記憶媒体をさらに提供する。
本開示の実施例によれば、本開示はコンピュータプログラムをさらに提供し、コンピュータプログラムがプロセッサによって実行される場合、本開示によって提供される事前トレーニングモデルのプロンプトベクトルの決定方法が実現される。
本開示の実施例によれば、本開示はコンピュータプログラムをさらに提供し、コンピュータプログラムがプロセッサによって実行される場合、本開示によって提供される事前トレーニングモデルのプロンプトベクトルの決定方法が実現される。
図5は、本開示の実施例を実施するための例示的な電子機器500の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセシング、セルラー電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表してもよい。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び/または求められる本願の実現を限定することを意図しない。
図5に示すように、電子機器500は、リードオンリーメモリ(ROM)502に記憶されたコンピュータプログラム、または記憶ユニット508からランダムアクセスメモリ(RAM)503にローディングされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行できる計算ユニット501を備える。RAM503には、電子機器500の動作に必要な各種のプログラム及びデータをさらに記憶することができる。計算ユニット501と、ROM502と、RAM503とは、バス504を介して互いに接続されている。入力/出力(I/O)インタフェース505もバス504に接続されている。
電子機器500における複数のコンポーネントは、I/Oインタフェース505に接続されており、その複数のコンポーネントは、キーボードやマウスなどの入力ユニット506と、種々なディスプレイやスピーカなどの出力ユニット507と、磁気ディスクや光学ディスクなどの記憶ユニット508と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット509と、を備える。通信ユニット509は、電子機器500がインターネットのようなコンピュータネット及び/または種々なキャリアネットワークを介して他の機器と情報/データを交換することを可能にする。
計算ユニット501は、処理及び計算能力を有する様々な汎用及び/または専用の処理コンポーネントであってもよい。計算ユニット501のいくつかの例としては、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタ信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを備えるが、これらに限定されない。計算ユニット501は、上述で説明された各方法及び処理、例えば事前トレーニングモデルのプロンプトベクトルの決定方法を実行する。例えば、いくつかの実施形態では、事前トレーニングモデルのプロンプトベクトルの決定方法を、記憶ユニット508のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現されてもよい。一部の実施形態では、コンピュータプログラムの一部または全ては、ROM502及び/または通信ユニット509を介して、電子機器500にロード及び/またはインストールされてもよい。コンピュータプログラムがRAM503にロードされて計算ユニット501によって実行される場合に、前述した事前トレーニングモデルのプロンプトベクトルの決定方法の一つまたは複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット501は、他の任意の適当な方式(例えば、ファームウェア)により事前トレーニングモデルのプロンプトベクトルの決定方法を実行するように構成されてもよい。
ここで記載されているシステムまたは技術の各種の実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び/またはこれらの組み合わせによって実現することができる。これらの各実施形態は、少なくとも1つのプログラマブルプロセッサを備えるプログラマブルシステムにて実行及び/または解釈される1つまたは複数のコンピュータプログラムにより実行することを含み得、当該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスからデータ及び命令を受け取り、データ及び命令を該ストレージシステム、当該少なくとも1つの入力デバイス、及び当該少なくとも1つの出力デバイスに転送することができる専用または汎用のプログラマブルプロセッサであってもよい。
本開示の方法を実施するためのプログラムコードは、1または複数のプログラミング言語の組み合わせで記述されていてもよい。これらのプログラムコードは、プロセッサ又はコントローラによって実行されるとされた際に、フローチャート及び/またはブロック図で規定された機能・動作が実施されるように、汎用コンピュータや専用コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサやコントローラに提供されてもよい。プログラムコードは、機械上で完全に実行されるか、機械上で部分的に実行されるか、独立したソフトウェアパッケージとして機械上で部分的に実行されるとともにリモートマシン上で部分的に実行されるか、またはリモートマシンまたはサーバ上で完全に実行されてもよい。
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置またはデバイスによって使用されるために、または命令実行システム、装置またはデバイスと組み合わせて使用されるためのプログラムを含むか、または記憶することができる有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体であってもよいし、機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体としては、電子的、磁気的、光学的、電磁的、赤外線的、半導体システム、装置、デバイス、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例としては、1または複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラム可能なリードオンリメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせが挙げられる。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータで実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウスまたはトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供するために用いられることができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、またはミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバー)、またはフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェースまたは当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、またはこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークとを含む。
コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータで実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。ここで、サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービス体系のうちのホスト製品であり、従来の物理ホストとVPSサービス(Virtual Private Server、また、「VPS」と略記する)では、管理が難しく、業務拡張性が弱いという欠点を解決している。サーバは、分散システムのサーバ、またはブロックチェーンを結合したサーバであってもよい。
本開示の技術案は、第1のプロンプトベクトル及びサンプルデータに対応する第1のベクトルを取得し、事前トレーニングモデルに対して異なるN回の枝刈り処理を実行して、N個の枝刈りモデルを取得し、第1のベクトルと第1のプロンプトベクトルを融合してから、N個の枝刈りモデルにそれぞれ入力して、第1のプロンプトベクトルに対応する第1のスコアを取得し、第1のスコアに基づいて、第1のプロンプトベクトルを修正して、第2のプロンプトベクトルを決定し、第2のプロンプトベクトルに基づいて、前記サンプルデータに対応するターゲットプロンプトベクトルが決定されるまで、第1のスコアを取得する操作の実行に戻ることができる。これにより、サンプルデータに対応する第1のベクトルとプロンプトベクトルを融合してから、N個の枝刈りモデルにそれぞれ入力することにより、対応する第1のスコアを取得し、第1のスコアに基づいてプロンプトベクトルを修正して、次のプロンプトベクトルを決定し、新たに決定されたプロンプトベクトルに基づいて、ターゲットプロンプトベクトルが決定されるまで、第1のスコアを取得する操作の実行に戻ることにより、異なる複数の枝刈りモデルにより、複数の視点からプロンプトベクトルを最適化し、決定されたターゲットプロンプトベクトルをより包括的かつ信頼できるものにすることができ、ターゲットプロンプトベクトルの精度を向上させることができる。
なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解されるべきである。例えば、本開示に記載された各ステップは、本願に開示された技術方案の所望の結果が達成できる限り、並列に実行されてもよいし、順番に実行されてもよいし、異なる順序で実行されてもよく、本明細書では制限されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組合、及び代替を行うことができることは理解される。本願の精神及び原理内で行われたあらゆる修正、同等の置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。
Claims (19)
- 事前トレーニングモデルのプロンプトベクトルの決定方法であって、事前トレーニングモデルのプロンプトベクトルの決定装置によって実行され、
第1のプロンプトベクトル及びサンプルデータに対応する第1のベクトルを取得するステップと、
事前トレーニングモデルに対して異なるN回の枝刈り処理を実行して、N個の枝刈りモデルを取得するステップであって、Nは1よりも大きい任意の整数であるステップと、
前記第1のベクトルと前記第1のプロンプトベクトルを融合してから、前記N個の枝刈りモデルにそれぞれ入力して、前記第1のプロンプトベクトルに対応する第1のスコアを取得するステップと、
前記第1のスコアに基づいて、前記第1のプロンプトベクトルを修正して、第2のプロンプトベクトルを決定するステップと、
前記第2のプロンプトベクトルに基づいて、前記サンプルデータに対応するターゲットプロンプトベクトルが決定されるまで、前記第1のスコアを取得する操作の実行に戻るステップと、
を含む、事前トレーニングモデルのプロンプトベクトルの決定方法。 - 前記第1のスコアを取得する操作の実行に戻ることが、
第N+1のプロンプトベクトルに隣接する最初のL個のプロンプトベクトル及び前記最初のL個のプロンプトベクトルのうちの各プロンプトベクトルに対応する第1のスコアを取得し、LはN以下で1よりも大きい正の整数であり、Nは1よりも大きい正の整数であることと、
前記最初のL個のプロンプトベクトルのうちの各プロンプトベクトルに対応する第1のスコアに基づいて、前記第N+1のプロンプトベクトルの修正モードを決定することと、
前記第N+1のプロンプトベクトルの修正モードに基づいて、前記第N+1のプロンプトベクトルを修正して、第N+2のプロンプトベクトルを生成することと、
を含む請求項1に記載の事前トレーニングモデルのプロンプトベクトルの決定方法。 - 前記最初のL個のプロンプトベクトルのうちの各プロンプトベクトルに対応する第1のスコアに基づいて、前記第N+1のプロンプトベクトルの修正モードを決定することが、
最初のL個のプロンプトベクトルのうち隣接する2つのプロンプトベクトルにそれぞれ対応する第1のスコア間の第1の差を決定することと、
各第1の差に含まれる正の値の数が1つの場合、前記正の値に対応する2つのプロンプトベクトルの各対応する要素間の差を決定することと、
前記2つのプロンプトベクトルの各対応する要素間の差に基づいて、前記第N+1のプロンプトベクトル内の各要素の修正モードを決定することと、
を含む請求項2に記載の事前トレーニングモデルのプロンプトベクトルの決定方法。 - 前記最初のL個のプロンプトベクトルのうちの各プロンプトベクトルに対応する第1のスコアに基づいて、前記第N+1のプロンプトベクトルの修正モードを決定することが、
最初のL個のプロンプトベクトルのうち隣接する2つのプロンプトベクトルにそれぞれ対応する第1のスコア間の第1の差を決定することと、
各第1の差に含まれる正の値の数が複数の場合、最も大きい正の値に対応する2つのプロンプトベクトルの各対応する要素間の差を決定することと、
前記2つのプロンプトベクトルの各対応する要素間の差に基づいて、前記第N+1のプロンプトベクトル内の各要素の修正モードを決定することと、
を含む請求項2に記載の事前トレーニングモデルのプロンプトベクトルの決定方法。 - 前記最初のL個のプロンプトベクトルのうち隣接する2つのプロンプトベクトルにそれぞれ対応する第1のスコア間の第1の差を決定した後、
各第1の差に含まれる最も大きい正の値の数が複数の場合、複数の前記最も大きい正の値にそれぞれ対応する2つのプロンプトベクトルを決定することと、
前記2つのプロンプトベクトルのうちの後のプロンプトベクトルに対応する番号値とN+1の間の第2の差を決定することと、
最も小さい第2の差に対応する2つのプロンプトベクトルの各対応する要素間の差に基づいて、前記第N+1のプロンプトベクトル内の各要素の修正モードを決定することと、
を含む請求項4に記載の事前トレーニングモデルのプロンプトベクトルの決定方法。 - 前記第1のベクトルと前記第1のプロンプトベクトルを融合してから、前記N個の枝刈りモデルにそれぞれ入力して、前記第1のプロンプトベクトルに対応する第1のスコアを取得するステップが、
前記第1のベクトルと前記第1のプロンプトベクトルを融合してから、前記N個の枝刈りモデルにそれぞれ入力して、各前記枝刈りモデルから出力された予測ラベルを取得するステップと、
各前記予測ラベルとラベリングラベルの差に基づいて、各前記枝刈りモデルでの前記第1のプロンプトベクトルに対応する第2のスコアを決定するステップと、
複数の前記第2のスコアを平均化して、前記第1のプロンプトベクトルに対応する第1のスコアを決定するステップと、
を含む請求項1に記載の事前トレーニングモデルのプロンプトベクトルの決定方法。 - 前記サンプルデータに対応するターゲットプロンプトベクトルを決定することが、
候補プロンプトベクトルのシーケンスを記録し、前記候補プロンプトベクトルのシーケンスのうち隣接する2つの候補プロンプトベクトルに対応する番号値の間の第3の差はKであり、Kは正の整数であることと、
検証データに対応する第2のベクトルと候補プロンプトベクトルを融合してから、前記N個の枝刈りモデルにそれぞれ入力して、各前記枝刈りモデルから出力された予測ラベルを取得することと、
各前記予測ラベルとラベリングラベルの差に基づいて、前記候補プロンプトベクトルに対応する第1のスコアを決定することと、
スコア値が最も高い第1のスコアに対応する候補プロンプトベクトルを、ターゲットプロンプトベクトルとして決定することと、
を含む請求項1に記載の事前トレーニングモデルのプロンプトベクトルの決定方法。 - 前記事前トレーニングモデルに対して異なるN回の枝刈り処理を実行して、N個の枝刈りモデルを取得するステップが、
枝刈りされるニューロンの数mを決定するステップであって、mは任意の正の整数であるステップと、
前記枝刈りされるニューロンの数mに基づいて、前記事前トレーニングモデルに対して異なるN回の枝刈り処理をそれぞれ実行して、N個の枝刈りモデルを取得するステップであって、2つの前記枝刈りモデルごとに、少なくとも1つのニューロンが異なるステップと、
を含む請求項1に記載の事前トレーニングモデルのプロンプトベクトルの決定方法。 - 第1のプロンプトベクトル及びサンプルデータに対応する第1のベクトルを取得するための第1の取得モジュールと、
事前トレーニングモデルに対して異なるN回の枝刈り処理を実行して、N個の枝刈りモデルを取得するための処理モジュールであって、Nは1よりも大きい任意の整数である処理モジュールと、
前記第1のベクトルと前記第1のプロンプトベクトルを融合してから、前記N個の枝刈りモデルにそれぞれ入力して、前記第1のプロンプトベクトルに対応する第1のスコアを取得するための第2の取得モジュールと、
前記第1のスコアに基づいて、前記第1のプロンプトベクトルを修正して、第2のプロンプトベクトルを決定するための修正モジュールと、
前記第2のプロンプトベクトルに基づいて、前記サンプルデータに対応するターゲットプロンプトベクトルが決定されるまで、前記第1のスコアを取得する操作の実行に戻るための決定モジュールと、
を備える、事前トレーニングモデルのプロンプトベクトルの決定装置。 - 前記決定モジュールが、
第N+1のプロンプトベクトルに隣接する最初のL個のプロンプトベクトル及び前記最初のL個のプロンプトベクトルのうちの各プロンプトベクトルに対応する第1のスコアを取得するための取得ユニットであって、LはN以下で1よりも大きい正の整数であり、Nは1よりも大きい正の整数である取得ユニットと、
前記最初のL個のプロンプトベクトルのうちの各プロンプトベクトルに対応する第1のスコアに基づいて、前記第N+1のプロンプトベクトルの修正モードを決定するための決定ユニットと、
前記第N+1のプロンプトベクトルの修正モードに基づいて、前記第N+1のプロンプトベクトルを修正して、第N+2のプロンプトベクトルを生成するための生成ユニットと、
を含む請求項9に記載の事前トレーニングモデルのプロンプトベクトルの決定装置。 - 前記決定ユニットが、
最初のL個のプロンプトベクトルのうち隣接する2つのプロンプトベクトルにそれぞれ対応する第1のスコア間の第1の差を決定し、
各第1の差に含まれる正の値の数が1つの場合、前記正の値に対応する2つのプロンプトベクトルの各対応する要素間の差を決定し、
前記2つのプロンプトベクトルの各対応する要素間の差に基づいて、前記第N+1のプロンプトベクトル内の各要素の修正モードを決定する請求項10に記載の事前トレーニングモデルのプロンプトベクトルの決定装置。 - 前記決定ユニットが、
最初のL個のプロンプトベクトルのうち隣接する2つのプロンプトベクトルにそれぞれ対応する第1のスコア間の第1の差を決定し、
各第1の差に含まれる正の値の数が複数の場合、最も大きい正の値に対応する2つのプロンプトベクトルの各対応する要素間の差を決定し、
前記2つのプロンプトベクトルの各対応する要素間の差に基づいて、前記第N+1のプロンプトベクトル内の各要素の修正モードを決定する請求項10に記載の事前トレーニングモデルのプロンプトベクトルの決定装置。 - 前記決定ユニットが、
各第1の差に含まれる最も大きい正の値の数が複数の場合、複数の前記最も大きい正の値にそれぞれ対応する2つのプロンプトベクトルを決定し、
前記2つのプロンプトベクトルのうちの後のプロンプトベクトルに対応する番号値とN+1の間の第2の差を決定し、
最も小さい第2の差に対応する2つのプロンプトベクトルの各対応する要素間の差に基づいて、前記第N+1のプロンプトベクトル内の各要素の修正モードを決定する請求項10に記載の事前トレーニングモデルのプロンプトベクトルの決定装置。 - 前記第2の取得モジュールが、
前記第1のベクトルと前記第1のプロンプトベクトルを融合してから、前記N個の枝刈りモデルにそれぞれ入力して、各前記枝刈りモデルから出力された予測ラベルを取得し、
各前記予測ラベルとラベリングラベルの差に基づいて、各前記枝刈りモデルでの前記第1のプロンプトベクトルに対応する第2のスコアを決定し、
複数の前記第2のスコアを平均化して、前記第1のプロンプトベクトルに対応する第1のスコアを決定する請求項9に記載の事前トレーニングモデルのプロンプトベクトルの決定装置。 - 前記決定モジュールが、
候補プロンプトベクトルのシーケンスを記録し、前記候補プロンプトベクトルのシーケンスのうち隣接する2つの候補プロンプトベクトルに対応する番号値の間の第3の差はKであり、Kは正の整数であり、
検証データに対応する第2のベクトルと候補プロンプトベクトルを融合してから、前記N個の枝刈りモデルにそれぞれ入力して、各前記枝刈りモデルから出力された予測ラベルを取得し、
各前記予測ラベルとラベリングラベルの差に基づいて、前記候補プロンプトベクトルに対応する第1のスコアを決定し、
スコア値が最も高い第1のスコアに対応する候補プロンプトベクトルを、ターゲットプロンプトベクトルとして決定する請求項9に記載の事前トレーニングモデルのプロンプトベクトルの決定装置。 - 前記第1の取得モジュールが、
枝刈りされるニューロンの数mを決定し、mは任意の正の整数であり、
前記枝刈りされるニューロンの数mに基づいて、前記事前トレーニングモデルに対して異なるN回の枝刈り処理をそれぞれ実行して、N個の枝刈りモデルを取得し、2つの前記枝刈りモデルごとに、少なくとも1つのニューロンが異なる請求項9から14のいずれか一項に記載の事前トレーニングモデルのプロンプトベクトルの決定装置。 - 少なくとも1つのプロセッサと、
該少なくとも1つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが請求項1から8のいずれか一項に記載の事前トレーニングモデルのプロンプトベクトルの決定方法を実行できるように、前記少なくとも1つのプロセッサによって実行される電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項1から8のいずれか一項に記載の事前トレーニングモデルのプロンプトベクトルの決定方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。 - プロセッサによって実行される場合、請求項1から8のいずれか一項に記載の事前トレーニングモデルのプロンプトベクトルの決定方法が実現されるコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210524324.XA CN114723050B (zh) | 2022-05-14 | 2022-05-14 | 预训练模型提示向量的确定方法、装置及电子设备 |
CN202210524324.X | 2022-05-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023071912A JP2023071912A (ja) | 2023-05-23 |
JP7495543B2 true JP7495543B2 (ja) | 2024-06-04 |
Family
ID=
Non-Patent Citations (2)
Title |
---|
Brian Lester et al.,The Power of Scale for Parameter-Efficient Prompt Tuning,arXiv[オンライン],version 2,2021年,頁1~15,[検索日 2024.01.09] インターネット: <URL:https://arxiv.org/abs/2104.08691> |
Yuning Mao et al.,UNIPELT: A Unified Framework for Parameter-Efficient Language Model Tuning,arXiv[オンライン],version 1,2021年,頁1~9,[検索日 2024.01.09] インターネット: <URL:https://arxiv.org/abs/2110.07577v1> |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200184307A1 (en) | Utilizing recurrent neural networks to recognize and extract open intent from text inputs | |
JP2022177220A (ja) | テキスト認識モデルの訓練方法、テキスト認識方法及び装置 | |
US9613185B2 (en) | Influence filtering in graphical models | |
WO2018126325A1 (en) | Learning document embeddings with convolutional neural network architectures | |
CN111967256B (zh) | 事件关系的生成方法、装置、电子设备和存储介质 | |
CN112487173B (zh) | 人机对话方法、设备和存储介质 | |
JP2022031804A (ja) | イベント抽出方法、装置、電子機器及び記憶媒体 | |
GB2577584A (en) | Utilizing a dynamic memory network to track digital dialog states and generate responses | |
EP4113357A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
EP3411835A1 (en) | Augmenting neural networks with hierarchical external memory | |
JP2023022845A (ja) | ビデオ処理方法、ビデオサーチ方法及びモデルトレーニング方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN116304748B (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
US20220374678A1 (en) | Method for determining pre-training model, electronic device and storage medium | |
CN116152833B (zh) | 基于图像的表格还原模型的训练方法及表格还原方法 | |
CN113761868A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN112906368B (zh) | 行业文本增量方法、相关装置及计算机程序产品 | |
CN112507705B (zh) | 一种位置编码的生成方法、装置及电子设备 | |
CN114792097B (zh) | 预训练模型提示向量的确定方法、装置及电子设备 | |
CN115130470B (zh) | 一种文本关键词的生成方法、装置、设备及介质 | |
JP7495543B2 (ja) | 事前トレーニングモデルのプロンプトベクトルの決定方法、装置及び電子機器 | |
WO2023137903A1 (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 | |
CN113204616B (zh) | 文本抽取模型的训练与文本抽取的方法、装置 | |
CN113139463B (zh) | 用于训练模型的方法、装置、设备、介质和程序产品 | |
CN115510193A (zh) | 查询结果向量化方法、查询结果确定方法及相关装置 | |
CN114723050B (zh) | 预训练模型提示向量的确定方法、装置及电子设备 |