JP7421604B2 - モデル事前訓練方法および装置、テキスト生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム - Google Patents

モデル事前訓練方法および装置、テキスト生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP7421604B2
JP7421604B2 JP2022111132A JP2022111132A JP7421604B2 JP 7421604 B2 JP7421604 B2 JP 7421604B2 JP 2022111132 A JP2022111132 A JP 2022111132A JP 2022111132 A JP2022111132 A JP 2022111132A JP 7421604 B2 JP7421604 B2 JP 7421604B2
Authority
JP
Japan
Prior art keywords
natural language
sample
prompts
model
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022111132A
Other languages
English (en)
Other versions
JP2022153441A (ja
Inventor
ジュンユアン シャン
ショウフアン ワン
シユ ディン
ヤンビン ツァオ
チャオ パン
ユ スン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022153441A publication Critical patent/JP2022153441A/ja
Application granted granted Critical
Publication of JP7421604B2 publication Critical patent/JP7421604B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本出願は人工知能技術分野に関し、特に自然言語処理および深層学習の技術分野に関する。
近年、自然言語処理技術の発展に伴い、言語モデルが人々の視野に入りつつある。言語モデルは自然言語処理において重要な位置を占めており、そのタスクは1文が言語に出現する確率を予測することである。大規模な言語モデルは超強力なテキスト生成能力を示すが、ユーザが言語モデルの生成結果を制御することは困難である。
本出願の実施形態は、モデル事前訓練方法および装置、テキスト生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラムを提案する。
第1の態様では、本出願の実施形態は、サンプル自然言語テキストを取得するステップと、サンプル自然言語テキストに基づいて、N(ただし、Nは正の整数である)タイプのプロンプトを生成するステップと、サンプル自然言語テキストおよびNタイプのプロンプトに基づいて、サンプル入力データを生成するステップと、サンプル入力データに基づいて、初期言語モデルを訓練して、事前訓練言語モデルを得るステップとを含むモデル事前訓練方法を提案する。
第2の態様では、本出願の実施形態は、プレフィックス・テキスト・フラグメントおよび少なくとも1タイプのプロンプトを取得するステップと、プレフィックス・テキスト・フラグメントと少なくとも1タイプのプロンプトとをスプライシングして入力データを生成するステップと、入力データを、第1の態様に記載の方法によって訓練された事前訓練言語モデルに入力し、擬似自然言語テキストを生成するステップと、を含むテキスト生成方法を提案する。
第3の態様では、本出願の実施形態は、サンプル自然言語テキストを取得するように構成される取得モジュールと、サンプル自然言語テキストに基づいて、N(ただし、Nは正の整数である)タイプのプロンプトを生成するように構成される第1の生成モジュールと、サンプル自然言語テキストおよびNタイプのプロンプトに基づいて、サンプル入力データを生成するように構成される第2の生成モジュールと、サンプル入力データに基づいて初期言語モデルを訓練して、事前訓練言語モデルを得るように構成される訓練モジュールと、を備えるモデル事前訓練装置を提案する。
第4の態様では、本出願の実施形態は、プレフィックス・テキスト・フラグメントおよび少なくとも1タイプのプロンプトを取得するように構成される取得モジュールと、プレフィックス・テキスト・フラグメントと少なくとも1タイプのプロンプトとをスプライシングして入力データを生成するように構成されるスプライシングモジュールと、入力データを、第3の態様に記載の装置を用いて訓練された事前訓練言語モデルに入力し、擬似自然言語テキストを生成するように構成される生成モジュールと、を備えるテキスト生成装置を提案する。
第5の態様では、本出願の実施形態は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な指令が格納され、指令が少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに第1の態様のいずれかの実施形態に記載のモデル事前訓練方法または第2の態様のいずれかの実施形態に記載のテキスト生成方法を実行させる、電子機器を提案する。
第6の態様では、本出願の実施形態は、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令はコンピュータに第1の態様のいずれかの実施形態に記載のモデル事前訓練方法または第2の態様のいずれかの実施形態に記載のテキスト生成方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体を提案する。
第7の態様では、本出願の実施形態は、プロセッサによって実行されると、第1の態様のいずれかの実施形態に記載のモデル事前訓練方法または第2の態様のいずれかの実施形態に記載のテキスト生成方法が実行されるコンピュータプログラムを提案する。
本出願の一実施形態に係るモデル事前訓練方法は、プロンプトに基づいた生成制御可能な事前訓練技術を提供し、事前訓練段階で異なる種類のデータに対してプロンプトテンプレートを設計することにより、言語モデルによるテキストの生成を改善し、モデルの制御性、解釈性、および興味性を高める。さらに、プロンプトに基づいて制御可能な生成データを構築して言語モデルを訓練することにより、下流の生成タスクに対する二次訓練を回避し、訓練コストを削減できる。
なお、発明の概要に記載された内容は、本出願の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定するものでもない。本出願の他の特徴は、以下の説明によって容易に理解される。
本出願の他の特徴、目的および利点は、以下の図面を参照してなされる非限定的な実施形態に係る詳細な説明を読むことにより、より明らかになる。図面は本出願をよりよく理解するために用いられ、本出願に対する限定ではない。
本出願に係るモデル事前訓練方法の一実施形態のフローチャートである。 本出願に係るモデル事前訓練方法のもう一つの実施形態のフローチャートである。 本出願の実施形態のモデル事前訓練方法を実現可能なシーンを示す図である。 本出願に係るテキスト生成方法の一実施形態のフローチャートである。 本出願に係るモデル事前訓練装置の一実施形態の構造概略図である。 本出願に係るテキスト生成装置の一実施形態の構造概略図である。 本出願の実施形態に係るモデル事前訓練方法またはテキスト生成方法が実現されるための電子機器のブロック図である。
以下、図面を参照して本出願の例示的な実施形態を説明し、ここで理解を助けるため、本出願の実施形態の様々な詳細を記載するが、これらは単なる例示的なものに過ぎないことを理解すべきである。従って、本出願の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更および修正を行うことができることを理解すべきである。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。
なお、本出願の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本出願を詳細に説明する。
図1は、本出願に係るモデル事前訓練方法の一実施形態のフロー100を示している。当該モデル事前訓練方法は、次のステップを含む。
ステップ101では、サンプル自然言語テキストを取得する。
本実施形態では、モデル事前訓練方法の実行主体は、サンプル自然言語テキストを取得することができる。
なお、サンプル自然言語テキストは、事前訓練コーパスに由来するものであってもよい。通常、これらのテキストは品質が高く、用語が適切で、前後が連続し、言語が簡潔である。例えば、知識増強に基づくERNIE(Enhanced Representation through Knowledge Integration,知識増強のセマンティック表現モデル)3.0百億パラメータ大規模モデルは、百科、捜索、小説、BAIDU知道、対句古詩など、様々なデータからなる4TBまでの事前訓練コーパスを構築している。サンプル自然言語テキストは、この事前訓練コーパスに由来するものであってもよい。
ステップ102では、サンプル自然言語テキストに基づいて、Nタイプのプロンプトを生成する。
本実施形態では、上記実行主体は、サンプル自然言語テキストに基づいて、Nタイプのプロンプトを生成することができる。ここで、Nは正の整数である。
通常、サンプル自然言語テキストの内容を解析することにより、Nタイプのプロンプトを確定することができる。Nタイプとしては、タスクタイプ、トピックタイプ、注目点タイプ、感情タイプおよび生成長さタイプなどが挙げられるが、これらに限定されない。
その中で、タスクタイプはさらに、質問回答、知識、対話、ユニバーサル、金融、医療、法律、対句、詩、歌曲、翻訳、数学、Webページ、Tieba(掲示板サービス)など、複数のタイプに細分化できる。1タスクタイプは、1つの連続的なプロンプト語彙リストを関連付けることができる。まず、サンプル自然言語テキストが属する具体的な分類のタスクタイプを確定し、そのタスクタイプに関連付けられた連続的なプロンプト語彙リストから連続的なプロンプトを取得し、サンプル自然言語テキストのタスクタイプのプロンプトとする。連続的なプロンプトは特殊文字であってもよく、それぞれの特殊文字は学習可能なパラメータである。離散プロンプトよりも連続的なプロンプトの方が汎用性が高く、それにより、モデルがより有効な特徴を学習できる。
このうち、トピックタイプは、1つのトピックタイププロンプト語彙リストに対応することができる。トピックタイププロンプト語彙リストには、国際、スポーツ、娯楽、社会、財経、時事、科学技術、科学、データ、感情、自動車、教育、ファッション、ゲーム、軍事、旅行、美食、文化、健康養生、お笑い、生活用品、アニメ、ペット、ベビー・マタニティ用品・子育て、星座運勢、歴史、音楽などのプロンプトが含まれるが、これらに限定されない。トピックタイププロンプト語彙リストから、サンプル自然言語テキストのトピックタイプのプロンプトを選択できる。トピックタイプのプロンプトにより、モデルをトピックに関するテキストを生成するように導くことができる。
このうち、注目点タイプのプロンプトは、自然言語テキスト中の人間が注目する単語(例えば人物、時間、場所、イベントなどのキーワード)が一般的である。サンプル自然言語テキストから人物、時間、場所、イベントなどのタイプのキーワードを抽出し、サンプル自然言語テキストの注目点タイプのプロンプトとする。これらのキーワードのプロンプトに基づいて、モデルはキーワードに関するテキストを生成することができる。
ここで、感情タイプのプロンプトは、ネガティブタイプ、ポジティブタイプ、およびニュートラルタイプを含んでもよい。サンプル自然言語テキストを感情分類することで、サンプル自然言語テキストの感情分類を特定することができ、その感情分類はその感情タイプのプロンプトである。感情タイプのプロンプトに基づいて、モデルを感情に関するテキストを生成するように導くことができる。
ここで、サンプル自然言語テキストの生成長さタイプのプロンプトは、サンプル自然言語テキストの長さであってもよい。生成長さプロンプトを付与することで、テキスト生成の長さを制御することができ、モデルが長すぎる内容を生成することで人為的に切断することによる不完全な意味の生成を回避することができる。
ステップ103では、サンプル自然言語テキストとNタイプのプロンプトとに基づいて、サンプル入力データを生成する。
本実施形態では、上記実行主体は、サンプル自然言語テキストとNタイプのプロンプトとに基づいて、サンプル入力データを生成することができる。
通常、サンプル自然言語テキストからサンプル・プレフィックス・テキスト・フラグメントを切り出し、Nタイプのプロンプトの全部または一部をサンプル・プレフィックス・テキスト・フラグメントの前に挿入することにより、サンプル入力データを生成することができる。例えば、サンプル自然言語テキストから先頭の5文字からなるサンプル・プレフィックス・テキスト・フラグメントを切り出し、サンプル・プレフィックス・テキスト・フラグメントの前にNタイプのプロンプトを全て挿入し、サンプル入力データを得る。特殊な場合には、プレフィックス・テキスト・フラグメントを空にしてもよい。例えば、Nタイプのプロンプトの中から一部のタイプのプロンプトを選択し、そのままスプライシングしてサンプル入力データを得る。
ステップ104では、サンプル入力データに基づいて初期言語モデルを訓練して事前訓練言語モデルを得る。
本実施形態では、上記実行主体は、サンプル入力データに基づいて初期言語モデルを訓練して事前訓練言語モデルを得ることができる。
通常、サンプル入力データを初期言語モデルに入力し、サンプル擬似自然言語テキストを得ることができる。サンプル擬似自然言語テキストとサンプル自然言語テキストとの差に基づいて、モデルから出力されるサンプル擬似自然言語テキストの分布が入力されたサンプル自然言語テキストとより近似するように、初期言語モデルのパラメータを調整することができる。サンプル擬似自然言語テキストの分布がサンプル自然言語テキストと近似するほど、サンプル擬似自然言語テキストの品質が高く、事前訓練言語モデルの性能が良いことを示す。
ここで、事前訓練言語モデルは、初期言語モデルを機械学習手法とサンプル入力データを用いて訓練したものであってもよい。通常、初期言語モデルの各パラメータ(例えば、ウェイトパラメータおよびバイアスパラメータ)を、いくつかの異なる小さな乱数で初期化してもよい。「小さな乱数」を使用することにより、モデルが過大なウェイトにより飽和状態になることで訓練が失敗してしまうことを防止でき、「異なる」乱数の使用により、モデルが正常に学習できることが確保される。初期言語モデルのパラメータは、生成された疑似テキストの分布が入力された実テキストの分布により近い事前訓練言語モデルが訓練されるまで、訓練中に常に調整されることができる。例えば、BP(Back Propagation,誤差逆伝播)アルゴリズムまたはSGD(Stochastic Gradient Descent,確率的勾配降下)アルゴリズムを使用して、初期言語モデルのパラメータを調整することができる。
本出願の一実施形態に係るモデル事前訓練方法は、プロンプトに基づいた生成制御可能な事前訓練技術を提供し、事前訓練段階で異なる種類のデータに対してプロンプトテンプレートを設計することにより、言語モデルによるテキストの生成を改善し、モデルの制御性、解釈性、および興味性を高めることができる。さらに、プロンプトに基づいて制御可能な生成データを構築して言語モデルを訓練することにより、下流の生成タスクに対する二次訓練を回避し、訓練コストを削減できる。
次に、本出願に係るモデル事前訓練方法のもう一つの実施形態のフロー200を示す図2を参照する。当該モデル事前訓練方法は、次のステップを含む。
ステップ201では、サンプル自然言語テキストを取得する。
本実施形態では、ステップ201の動作は、図1に示す実施形態のステップ101に詳しく説明したので、ここではその説明を省略する。
この実施形態では、プロンプトの分類は、タスクタイプ、トピックタイプ、注目点タイプ、感情タイプ、および生成長さタイプを含んでもよい。モデル事前訓練方法の実行主体は、サンプル自然言語テキストの上記5タイプのプロンプトを取得するために、ステップ202~204、205、206、207、208を並行して実行してもよい。
ステップ202では、サンプル自然言語テキストの目標タスクタイプを確定する。
本実施形態では、上記実行主体は、サンプル自然言語テキストを解析して、それが属する特定の種類のタスクタイプ、すなわち目標タスクタイプを確定することができる。
その中で、タスクタイプはさらに、質問回答、知識、対話、汎用、金融、医療、法律、対句、詩、歌曲、翻訳、数学、Webページ、Tieba(掲示板サービス)など、複数の種類に細分化できる。
ステップ203では、目標タスクタイプに関連付けられる連続的なプロンプト語彙リストを取得する。
本実施形態では、上記実行主体は、目標タスクタイプに関連付けられた連続的なプロンプト語彙リストを取得することができる。
通常、1つのタスクタイプに、1つの連続的なプロンプト語彙リストを関連付けることができる。サンプル自然言語テキストの目標タスクタイプを確定すると、目標タスクタイプに関連付けられる連続的なプロンプト語彙リストを取得できる。
ステップ204では、目標タスクタイプに関連付けられた連続的なプロンプト語彙リストからランダムな長さの連続的なプロンプトを取得してサンプル自然言語テキストのタスクタイプのプロンプトとする。
本実施形態では、上記実行主体は、目標タスクタイプに関連付けられた連続的なプロンプト語彙リストからランダムな長さの連続的なプロンプトを取得してサンプル自然言語テキストのタスクタイプのプロンプトとすることができる。
通常、サンプル自然言語テキストのタスクタイプのプロンプトとして、目標タスクタイプに関連付けられた連続的なプロンプト語彙リストから連続的なプロンプトを取得することができる。連続的なプロンプトは特殊文字であってもよく、それぞれの特殊文字は学習可能なパラメータである。離散プロンプトよりも連続的なプロンプトの方が汎用性が高く、それにより、モデルがより有効な特徴を学習できる。例えば、ユニバーサルタスクタイプに関連付けられた連続的なプロンプト語彙リストは、<ユニバーサル0>から<ユニバーサル63>までの連続的なプロンプトを含んでもよい。サンプル自然言語テキストのタスクタイプのプロンプトとして、ユニバーサルタスクタイプに関連付けられた連続的なプロンプト語彙リストから<ユニバーサル0>から<ユニバーサルM>までの連続的なプロンプトを取得してもよい。ここで、Mは0~63の整数型の数字である。Mは、訓練段階でランダムにサンプリングされたものである。また、予測段階では選択されたMの値が大きいほどそのタスクのパイロット信号が強いことを示す。
ステップ205では、サンプル自然言語テキストを事前訓練されたトピック分類モデルに入力し、サンプル自然言語テキストのトピックタイプのプロンプトを得る。
本実施形態では、上記実行主体は、サンプル自然言語テキストを事前訓練されたトピック分類モデルに入力し、サンプル自然言語テキストのトピックタイプのプロンプトを得ることができる。
このうち、トピックタイプは、1つのトピックタイププロンプト語彙リストに対応することができる。トピックタイププロンプト語彙リストには、国際、スポーツ、娯楽、社会、財経、時事、科学技術、科学、データ、感情、自動車、教育、ファッション、ゲーム、軍事、旅行、美食、文化、健康養生、お笑い、生活用品、アニメ、ペット、ベビー・マタニティ用品・子育て、星座運勢、歴史、音楽などのプロンプトが含まれるが、これらに限定されない。トピックタイプのプロンプトにより、モデルをトピックに関するテキストを生成するように導くことができる。
ここで、トピック分類モデルは、機械学習方法に基づいて訓練されたニューラルネットワークであってもよい。通常、トピック分類モデルは、API(Application Programming Interface ,アプリケーションプログラミングインターフェイス)を外部に提供する従来のモデルであってもよい。上記実行主体は、APIを呼び出すことにより、トピック分類モデルを用いて、サンプル自然言語テキストのトピックタイプのプロンプトを取得することができる。
ステップ206では、サンプル自然言語テキストを事前訓練された注目点抽出モデルに入力して、サンプル自然言語テキストの注目点タイプのプロンプトを得る。
本実施形態では、上記実行主体は、サンプル自然言語テキストを事前訓練された注目点抽出モデルに入力して、サンプル自然言語テキストの注目点タイプのプロンプトを得ることができる。
このうち、注目点タイプのプロンプトは、自然言語テキスト中の人々が比較的注目する単語(例えば人物、時間、場所、イベントなどのキーワード)が一般的である。サンプル自然言語テキストから人物、時間、場所、イベントなどのタイプのキーワードを抽出し、サンプル自然言語テキストの注目点タイプのプロンプトとする。これらのキーワードのプロンプトに基づいて、モデルはキーワードに関するテキストを生成することができる。
ここで、注目点抽出モデルは、機械学習方法により訓練されたニューラルネットワークであってもよい。通常、注目点抽出モデルはAPIを外部に提供するための従来のモデルであってもよい。上記実行主体は、APIを呼び出すことにより注目点抽出モデルを用いて、サンプル自然言語テキストの注目点タイプのプロンプトを取得することができる。
ステップ207では、サンプル自然言語テキストを事前訓練された感情解析モデルに入力して、サンプル自然言語テキストの感情タイプのプロンプトを得る。
本実施形態では、上記実行主体は、サンプル自然言語テキストを事前訓練された感情解析モデルに入力して、サンプル自然言語テキストの感情タイプのプロンプトを得ることができる。
ここで、感情タイプのプロンプトは、ネガティブタイプ、ポジティブタイプ、およびニュートラルタイプを含んでもよい。サンプル自然言語テキストを感情分類することで、サンプル自然言語テキストの感情分類を特定することができ、その感情分類はその感情タイプのプロンプトである。感情タイプのプロンプトに基づいて、モデルを感情に関するテキストを生成するように導くことができる。
このうち、感情解析モデルは、機械学習方法を用いて訓練されたニューラルネットワークであってもよく、サンプル自然言語テキストをネガティブ、ポジティブ、ニュートラルの3つのタイプに分類することができる。通常、感情解析モデルは、APIを外部に提供するための従来のモデルであってもよい。上記実行主体は、APIを呼び出すことにより、感情解析モデルを用いて、サンプル自然言語テキストの感情タイプのプロンプトを取得することができる。
ステップ208では、サンプル自然言語テキストの長さを、サンプル自然言語テキストの生成長さタイプのプロンプトとする。
本実施形態では、上記実行主体は、サンプル自然言語テキストの長さを、サンプル自然言語テキストの生成長さタイプのプロンプトとすることができる。
ここで、サンプル自然言語テキストの生成長さタイプのプロンプトは、サンプル自然言語テキストの長さであってもよい。生成長さプロンプトを付与することで、テキスト生成の長さを制御することができ、モデルが長すぎる内容を生成することで人為的に切断することによる不完全な意味の生成を回避することができる。
ここで、タスクタイプ、トピックタイプ、注目点タイプ、感情タイプおよび生成長さタイプの5タイプのプロンプトを構築することで、モデルが指定されたタスク、トピック、スタイルなどのテキストの生成をより効率的に完成することができ、ユーザによるテキスト生成の制御を大きく充実した。
ステップ209では、5タイプのプロンプトのランダムサンプリング確率をそれぞれ生成する。
本実施形態では、上記実行主体は、5タイプのプロンプトのランダムサンプリング確率をそれぞれ生成することができる。訓練段階では、5タイプのプロンプトのランダムサンプリング確率はランダムに生成されてもよい。
ステップ210では、5タイプのプロンプトの中からランダムサンプリング確率が予め設定された確率閾値よりも大きいプロンプトを選択する。
本実施形態では、上記実行主体は、5タイプのプロンプトの中からランダムサンプリング確率が予め設定された確率閾値よりも大きいプロンプトを選択することができる。
通常、訓練段階では、ランダムサンプリング確率が予め設定された確率閾値(例えば0.5 )よりも大きい場合にのみ、このタイプのプロンプトを使用する。ランダムサンプリングでは、特定のタイプのプロンプトを用いるか否かを判定することで、モデルがテキスト生成時にプロンプトに強く依存することを防止できる。予測段階では、ユーザはあるタイプのプロンプトを使用するか否かをより多様に選択することができる。
通常、訓練段階では、以下のような制御可能な条件を用いて最適化目標を生成することができる。
ここで、
は、指示関数であり、
は、それぞれ、タスクタイプ、トピックタイプ、注目点タイプ、感情タイプ、生成長さタイプの指示関数である。ランダムサンプリング確率が0.5よりも大きい場合にのみ、このタイプのプロンプトを使用する。生成すべきi番目の文字は、その条件が本文中の先頭文字x<iと5タイプのプロンプトに依存する。
ステップ211では、サンプル自然言語テキストからサンプル・プレフィックス・テキスト・フラグメントを切り出す。
本実施形態では、上記実行主体は、サンプル自然言語テキストからサンプル・プレフィックス・テキスト・フラグメントを切り出すことができる。例えば、サンプル自然言語テキストから、先頭の5文字からなるサンプル・プレフィックス・テキスト・フラグメントを切り出す。特殊な場合には、プレフィックス・テキスト・フラグメントを空にしてもよい。
ステップ212では、選択されたプロンプトとサンプル・プレフィックス・テキスト・フラグメントとをスプライシングして、サンプル入力データを生成する。
本実施形態では、上記実行主体は、選択されたプロンプトとサンプル・プレフィックス・テキスト・フラグメントとをスプライシングして、サンプル入力データを生成することができる。例えば、5タイプのプロンプトを全てサンプル・プレフィックス・テキスト・フラグメントの前に挿入して、サンプル入力データを得る。実際には、モデルが異なるタイプのプロンプトを正確に区別できるようにするために、各タイプのプロンプトを特殊な分割開始文字で始め、それに応じて特殊な分割終了文字で終了するようにしてもよい。例えば、<t>、<k>、<s>、<w>は、それぞれ、トピックタイプ、注目点タイプ、感情タイプおよび生成長さタイプのプロンプトの特殊な分割開始文字であり、</t>、</k>、</s>、</w>は、それぞれ、トピックタイプ、注目点タイプ、感情タイプおよび生成長さタイプのプロンプトの特殊な分割終了文字である。
ステップ213では、サンプル入力データを初期言語モデルに入力してサンプル擬似自然言語テキストを得る。
本実施形態では、上記実行主体は、サンプル入力データを初期言語モデルに入力してサンプル擬似自然言語テキストを得ることができる。
通常、サンプル入力データ中のプロンプトにより、モデルを関連するテキストの生成を行うように導くことができる。
ステップ214では、サンプル擬似自然言語テキストとサンプル自然言語テキストとの差異に基づいて、初期言語モデルのパラメータを調整し、事前訓練言語モデルを得る。
本実施形態では、上記実行主体は、サンプル擬似自然言語テキストとサンプル自然言語テキストとの差異に基づいて、初期言語モデルのパラメータを調整し、事前訓練言語モデルを得ることができる。
通常、事前訓練言語モデルから出力されるサンプル擬似自然言語テキストの分布は、パラメータの調整により、入力されたサンプル自然言語テキストにより近くなるようにされる。サンプル擬似自然言語テキストの分布がサンプル自然言語テキストと近似するほど、サンプル擬似自然言語テキストの品質が高く、事前訓練言語モデルの性能が良いことを示す。
図2から分かるように、図1の対応する実施例と比較して、本実施形態におけるモデル事前訓練方法のフロー200では、プロンプト生成ステップ、モデル入力データ生成ステップ、およびモデル訓練ステップが強調された。このように、本実施形態に係る方案では、タスクタイプ、トピックタイプ、注目点タイプ、感情タイプおよび生成長さタイプの5タイプのプロンプトを構築することにより、モデルが指定されたタスク、トピック、スタイルなどのテキストの生成をより効率的に完成することができ、ユーザによるテキスト生成の制御を大きく充実した。また、データ増強の手段として、特定領域のデータを生成することができる。また、タスクタイプのプロンプトは連続的なプロンプトの実現方式を採用しており、離散プロンプトよりも連続的なプロンプトの方がより汎用性が高く、モデルがより有効な特徴を学習でき、離散プロンプトを人手で選択することによるテキスト生成への影響およびコストを回避できる。訓練段階では、ランダムサンプリングでは、特定のタイプのプロンプトを用いるか否かを判定することで、モデルがテキスト生成時にプロンプトに強く依存することを防止できる。予測段階では、ユーザはあるタイプのプロンプトを使用するか否かをより多様に選択することができる。サンプル擬似自然言語テキストとサンプル自然言語テキストとの差異に基づいてパラメータを調整することにより、事前訓練言語モデルから出力されるサンプル擬似自然言語テキストの分布が、入力されたサンプル自然言語テキストにより近くなり、事前訓練言語モデルの性能が向上された。
理解を助けるために、図3は本出願の実施形態のモデル事前訓練方法を実現可能なシーンの図を示している。図3に示すように、サンプル自然言語テキストの内容を解析し確定されたタスクタイプのプロンプトは、<ユニバーサル0><ユニバーサル1>…<ユニバーサルM>であり、ここで、Mは0~63の整数型の数字であり、トピックタイプのプロンプトは、スポーツであり、注目点タイプのプロンプトは、ランパード、チェルシー、UEFAチャンピオンズリーグ(UEFA Champions League)であり、感情タイプのプロンプトは、ネガティブ;生成長さタイプのプロンプトは、全文約85文字である。以上の5タイプのプロンプトをサンプル自然言語テキストのオリジナル本文の前に挿入し、「<ユニバーサル0><ユニバーサル1>…<ユニバーサルM><t>スポーツ</t><k>ランパード、チェルシー、UEFAチャンピオンズリーグ</k><s>ネガティブ</s><w>全文約85文字</w>オリジナル本文」というサンプル入力データを得る。サンプル入力データをERNIE3.0に入力し、「ランパードのエージェントは4日、このイングランドのサッカー選手はシーズンの終わりにチェルシーを離れることは間違いないが、中国での発展をする予定がない。あと数カ月で、34歳のランパードはUEFAチャンピオンズリーグの優勝者であるチェルシーとの契約が満期になるが、双方とも現在、再契約にあまり興味がないと述べた」というサンプル擬似自然言語テキストを出力する。サンプル擬似自然言語テキストとサンプル自然言語テキストとの分布の差異に基づいて、ERNIE3.0のパラメータを調整して、事前訓練言語モデルを得ることができる。
さらに、本出願に係るテキスト生成方法の一実施形態のフロー400を示す図4を参照する。当該テキスト生成方法は、次のステップを含む。
ステップ401では、プレフィックス・テキスト・フラグメントおよび少なくとも1タイプのプロンプトを取得する。
本実施形態では、テキスト生成方法の実行主体は、プレフィックス・テキスト・フラグメントと、少なくとも1タイプのプロンプトとを取得することができる。
ここで、プレフィックス・テキスト・フラグメントは、任意の不完全なテキストフラグメントであってもよい。少なくとも1タイプのプロンプトは、ユーザが生成ニーズに応じて入力したプロンプトであってもよい。ユーザは、1タイプのプロンプトを入力してもよいし、複数タイプのプロンプトを入力してもよい。予測段階では、ユーザはあるタイプのプロンプトを使用するか否かをより多様に選択することができる。ここで、プレフィックス・テキスト・フラグメントと少なくとも1タイプのプロンプトとに基づいて、関連する完全な自然言語テキストを生成する必要がある。
ステップ402では、プレフィックス・テキスト・フラグメントと少なくとも1タイプのプロンプトとをスプライシングして入力データを生成する。
本実施形態では、上記実行主体は、プレフィックス・テキスト・フラグメントと少なくとも1タイプのプロンプトとをスプライシングして入力データを生成することができる。例えば、ユーザが入力したプロンプトをすべてプレフィックス・テキスト・フラグメントの前に挿入することで、入力データを得ることができる。実際には、モデルが異なるタイプのプロンプトを正確に区別できるようにするために、各タイプのプロンプトを特殊な分割開始文字で始め、それに応じて特殊な分割終了文字で終了するようにしてもよい。
ステップ403では、入力データを事前訓練された事前訓練言語モデルに入力し、擬似自然言語テキストを生成する。
本実施形態では、上記実行主体は、入力データを事前訓練された事前訓練言語モデルに入力し、擬似自然言語テキストを生成することができる。
ここで、事前訓練言語モデルは、図1または図2に示した方法を用いた実施形態で訓練したものであってもよい。事前訓練言語モデルは、プレフィックス・テキスト・フラグメントと少なくとも1タイプのプロンプトとに基づいて、関連する完全な擬似テキストを生成するために用いられてもよい。
本出願の一実施形態に係るテキスト生成方法は、事前訓練段階で、様々なタイプのデータに対してプロンプトテンプレートを設計することにより、言語モデルにより生成されたテキストがより高品質になり、モデルの制御性、解釈性および興味性を向上した。ユーザは、少なくとも1タイプのプロンプトを入力することにより、関連するテキストを生成するようにモデルを導くことができる。
更に図5を参照すると、上記の各図に示された方法の実施態様として、本出願は、モデル事前訓練装置の第1の実施形態を提供し、当該装置の実施形態は、図1に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。
図5に示すように、本実施形態のモデル事前訓練装置500は、取得モジュール501と、第1の生成モジュール502と、第2の生成モジュール503と、訓練モジュール504とを備えてもよい。このうち、取得モジュール501は、サンプル自然言語テキストを取得するように構成される。第1の生成モジュール502は、サンプル自然言語テキストに基づいて、N(ただし、Nは正の整数である)タイプのプロンプトを生成するように構成される。第2の生成モジュール503は、サンプル自然言語テキストおよびNタイプのプロンプトに基づいて、サンプル入力データを生成するように構成される。訓練モジュール504は、サンプル入力データに基づいて初期言語モデルを訓練して、事前訓練言語モデルを得るように構成される。
本実施形態では、モデル事前訓練装置500において、取得モジュール501と、第1の生成モジュール502と、第2の生成モジュール503と、訓練モジュール504の具体的な処理およびそれらによってもたらされる技術的効果は、それぞれ図1の対応する実施形態におけるステップ101~104の関連する記述を参照することができ、ここでその説明を省略する。
本実施形態のいくつかのオプション的な実施形態では、プロンプトにはタスクタイプを含み、第1の生成モジュール502は、さらに、サンプル自然言語テキストの目標タスクタイプを確定するステップと、目標タスクタイプに関連付けられた連続的なプロンプト語彙リストを取得するステップであって、1タスクタイプに1つの連続的なプロンプト語彙リストが関連付けられる、ステップと、目標タスクタイプに関連付けられた連続的なプロンプト語彙リストからランダムな長さの連続的なプロンプトを取得してサンプル自然言語テキストのタスクタイプのプロンプトとするステップと、を行うように構成される。
本実施形態のいくつかのオプション的な実施形態では、プロンプトはトピックタイプを含み、第1の生成モジュール502はさらに、サンプル自然言語テキストを事前訓練されたトピック分類モデルに入力し、サンプル自然言語テキストのトピックタイプのプロンプトを得るように構成される。
本実施形態のいくつかのオプション的な実施形態では、プロンプトは、注目点タイプを含み、第1の生成モジュール502は、さらに、サンプル自然言語テキストを事前訓練された注目点抽出モデルに入力して、サンプル自然言語テキストの注目点タイプのプロンプトを得るように構成される。
本実施形態のいくつかのオプション的な実施形態では、プロンプトは、感情タイプを含み、第1の生成モジュール502は、サンプル自然言語テキストを事前訓練された感情解析モデルに入力して、サンプル自然言語テキストの感情タイプのプロンプトを得るようにさらに構成される。
本実施形態のいくつかのオプション的な実施形態では、プロンプトは、生成長さタイプを含み、第1の生成モジュール502は、サンプル自然言語テキストの長さを、サンプル自然言語テキストの生成長さタイプのプロンプトとするようにさらに構成される。
本実施形態のいくつかのオプション的な実施形態では、第2の生成モジュール503は、Nタイプのプロンプトのランダムサンプリング確率をそれぞれ生成するステップと、Nタイプのプロンプトの中から、ランダムサンプリング確率が予め設定された確率閾値よりも大きいプロンプトを選択するステップと、サンプル自然言語テキストから、サンプル・プレフィックス・テキスト・フラグメントを切り出すステップと、選択されたプロンプトとサンプル・プレフィックス・テキスト・フラグメントとをスプライシングして、サンプル入力データを生成するステップと、を行うようにさらに構成される。
本実施形態のいくつかのオプション的な実施形態では、訓練モジュール504は、サンプル入力データを初期言語モデルに入力して、サンプル擬似自然言語テキストを取得し、サンプル擬似自然言語テキストとサンプル自然言語テキストとの差異に基づいて、初期言語モデルのパラメータを調整し、事前訓練言語モデルを得るようにさらに構成される。
更に図6を参照すると、上記の各図に示された方法の実施態様として、本出願は、テキスト生成装置の第1の実施形態を提供し、当該装置の実施形態は、図4に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。
図6に示すように、本実施形態のテキスト生成装置600は、取得モジュール601、スプライシングモジュール602および生成モジュール603を備えてもよい。このうち、取得モジュール601は、プレフィックス・テキスト・フラグメントおよび少なくとも1タイプのプロンプトを取得するように構成される。スプライシングモジュール602は、プレフィックス・テキスト・フラグメントと少なくとも1タイプのプロンプトとをスプライシングして入力データを生成するように構成される。生成モジュール603は、入力データを、図5に示す装置の実施形態を用いて訓練された事前訓練言語モデルに入力し、擬似自然言語テキストを生成するように構成される。
本実施形態では、テキスト生成装置600における取得モジュール601と、スプライシングモジュール602と、生成モジュール603の具体的な処理およびそれらによってもたらされる技術的効果は、それぞれ図4の対応する実施形態におけるステップ401~403の関連する記述を参照することができ、ここでその説明を省略する。
本出願の技術方案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供および公開などの処理は、いずれも関連法律法規の規定に準拠し、且つ公序良俗に反しない。
本出願の実施形態によれば、本出願はさらに電子機器、読み取り可能な記憶媒体およびコンピュータプログラム製品を提供する。
図7は、本出願の実施形態を実施するために使用できる例示的な電子機器700の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および/または要求した本出願の実施形態を限定することを意図するものではない。
図7に示すように、電子機器700は、読み出し専用メモリ(ROM)702に記憶されているコンピュータプログラムまたはストレージユニット708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラムによって様々な適当な動作および処理を実行することができる計算ユニット701を備える。RAM703には、機器700の動作に必要な様々なプログラムおよびデータがさらに記憶されることが可能である。コンピューティングユニット701、ROM702およびRAM703は、バス704を介して互いに接続されている。入/出力(I/O)インターフェース705もバス704に接続されている。
電子機器700において、キーボード、マウスなどの入力ユニット706と、様々なタイプのディスプレイ、スピーカなどの出力ユニット707と、磁気ディスク、光ディスクなどのストレージユニット708と、ネットワークプラグイン、モデム、無線通信送受信機などの通信ユニット709とを含む複数のコンポーネントは、I/Oインターフェース705に接続されている。通信ユニット709は、機器700がインターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。
計算ユニット701は、処理および計算機能を有する様々なユニバーサルおよび/または専用処理コンポーネントであってもよい。計算ユニット701のいくつかの例示として、中央処理装置(CPU)、グラフィックスプロセシングユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタルシグナルプロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット701は、上述したモデル事前訓練方法またはテキスト生成方法のような様々な方法および処理を実行する。例えば、いくつかの実施形態では、モデル事前訓練方法またはテキスト生成方法は、記憶ユニット708などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ROM702および/または通信ユニット709を介して機器700にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM703にロードされ、計算ユニット701によって実行されると、上述したモデル事前訓練方法またはテキスト生成方法の1つまたは複数のステップを実行可能である。あるいは、他の実施形態では、計算ユニット701は、他の任意の適切な形態によって(例えば、ファームウェアを介して)モデル事前訓練方法またはテキスト生成方法を実行するように構成されてもよい。
ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現することができる。これらの各実施形態は、1つまたは複数のコンピュータプログラムに実装され、当該1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈することができ、当該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を当該記憶システム、当該少なくとも1つの入力装置および当該少なくとも1つの出力装置に伝送することを含み得る。
本出願の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語のあらゆる組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラミング可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
本出願のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、指令実行システム、装置または機器が使用するため、または指令実行システム、装置または機器と組み合わせて使用するためのプログラムを含むか、または記憶することができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD?ROM)、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。
ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(CathodeRayTube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
ここで記述したシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバ)に実施されてもよく、またはミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)に実施されてもよく、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは該グラフィカルユーザインターフェースまたはウェブブラウザを介してここで説明したシステムおよび技術の実施形態とインタラクションしてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットなどを含む。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバはクラウドサーバであってもよく、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。
なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解すべきである。例えば、本に記載された各ステップは、提供に開示された技術方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限しない。
上記具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に従って、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (22)

  1. モデル事前訓練装置により実行されるモデル事前訓練方法であって、
    サンプル自然言語テキストを取得するステップと、
    前記サンプル自然言語テキストに基づいて、N(ただし、Nは正の整数である)タイプのプロンプトを生成するステップと、
    前記サンプル自然言語テキストおよび前記Nタイプのプロンプトに基づいて、サンプル入力データを生成するステップと、
    前記サンプル入力データに基づいて初期言語モデルを訓練して、事前訓練言語モデルを得るステップと、
    を含み、
    前記サンプル自然言語テキストおよび前記Nタイプのプロンプトに基づいて、サンプル入力データを生成するステップは、
    前記Nタイプのプロンプトのランダムサンプリング確率をそれぞれ生成するステップと、
    前記Nタイプのプロンプトの中から、ランダムサンプリング確率が予め設定された確率閾値よりも大きいプロンプトを選択するステップと、
    前記サンプル自然言語テキストから、サンプル・プレフィックス・テキスト・フラグメントを切り出すステップと、
    選択されたプロンプトと前記サンプル・プレフィックス・テキスト・フラグメントとをスプライシングして、前記サンプル入力データを生成するステップと、
    を含む、モデル事前訓練方法。
  2. プロンプトにはタスクタイプのプロンプトが含まれ、
    前記サンプル自然言語テキストに基づいて、Nタイプのプロンプトを生成するステップは、
    前記サンプル自然言語テキストの目標タスクタイプを確定するステップと、
    前記目標タスクタイプに関連付けられた連続的なプロンプト語彙リストを取得するステップであって、1タスクタイプに1つの連続的なプロンプト語彙リストが関連付けられる、ステップと、
    前記目標タスクタイプに関連付けられた連続的なプロンプト語彙リストからランダムな長さの連続的なプロンプトを取得して前記サンプル自然言語テキストのタスクタイプのプロンプトとするステップと、
    を含む請求項1に記載のモデル事前訓練方法。
  3. プロンプトにはトピックタイプのプロンプトが含まれ、
    前記サンプル自然言語テキストに基づいて、Nタイプのプロンプトを生成するステップは、
    前記サンプル自然言語テキストを事前訓練されたトピック分類モデルに入力して、前記サンプル自然言語テキストのトピックタイプのプロンプトを取得するステップを含む、請求項1に記載のモデル事前訓練方法。
  4. プロンプトには注目点タイプのプロンプトが含まれ、
    前記サンプル自然言語テキストに基づいて、Nタイプのプロンプトを生成するステップは、
    前記サンプル自然言語テキストを事前訓練された注目点抽出モデルに入力して、前記サンプル自然言語テキストの注目点タイプのプロンプトを取得するステップを含む、請求項1に記載のモデル事前訓練方法。
  5. プロンプトには感情タイプのプロンプトが含まれ、
    前記サンプル自然言語テキストに基づいて、Nタイプのプロンプトを生成するステップは、
    前記サンプル自然言語テキストを事前訓練された感情解析モデルに入力して、前記サンプル自然言語テキストの感情タイプのプロンプトを取得するステップを含む、請求項1に記載のモデル事前訓練方法。
  6. プロンプトには生成長さタイプのプロンプトが含まれ、
    前記サンプル自然言語テキストに基づいて、Nタイプのプロンプトを生成するステップは、
    前記サンプル自然言語テキストの長さを、前記サンプル自然言語テキストの生成長さタイプのプロンプトとするステップを含む、請求項1に記載のモデル事前訓練方法。
  7. 前記サンプル入力データに基づいて初期言語モデルを訓練して、事前訓練言語モデルを得るステップは、
    前記サンプル入力データを初期言語モデルに入力して、サンプル擬似自然言語テキストを得るステップと、
    前記サンプル擬似自然言語テキストと前記サンプル自然言語テキストとの差異に基づいて、前記初期言語モデルのパラメータを調整して、前記事前訓練言語モデルを得るステップと、
    を含む、請求項1に記載のモデル事前訓練方法。
  8. テキスト生成装置により実行されるテキスト生成方法であって、
    プレフィックス・テキスト・フラグメントおよび少なくとも1タイプのプロンプトを取得するステップと、
    前記プレフィックス・テキスト・フラグメントと前記少なくとも1タイプのプロンプトとをスプライシングして入力データを生成するステップと、
    請求項1~のいずれか1項に記載のモデル事前訓練方法により訓練された事前訓練言語モデルに前記入力データを入力し、擬似自然言語テキストを生成するステップと、
    を含むテキスト生成方法。
  9. サンプル自然言語テキストを取得するように構成される取得モジュールと、
    前記サンプル自然言語テキストに基づいて、N(ただし、Nは正の整数である)タイプのプロンプトを生成するように構成される第1の生成モジュールと、
    前記サンプル自然言語テキストおよび前記Nタイプのプロンプトに基づいて、サンプル入力データを生成するように構成される第2の生成モジュールと、
    前記サンプル入力データに基づいて初期言語モデルを訓練して、事前訓練言語モデルを得るように構成される訓練モジュールと、
    を備え
    前記第2の生成モジュールは、
    前記Nタイプのプロンプトのランダムサンプリング確率をそれぞれ生成するステップと、
    前記Nタイプのプロンプトの中から、ランダムサンプリング確率が予め設定された確率閾値よりも大きいプロンプトを選択するステップと、
    前記サンプル自然言語テキストから、サンプル・プレフィックス・テキスト・フラグメントを切り出すステップと、
    選択されたプロンプトと前記サンプル・プレフィックス・テキスト・フラグメントとをスプライシングして、前記サンプル入力データを生成するステップと、
    を行うようにさらに構成される、モデル事前訓練装置。
  10. プロンプトにはタスクタイプのプロンプトが含まれ、
    前記第1の生成モジュールは、
    前記サンプル自然言語テキストの目標タスクタイプを確定するステップと、
    前記目標タスクタイプに関連付けられた連続的なプロンプト語彙リストを取得するステップであって、1タスクタイプに1つの連続的なプロンプト語彙リストが関連付けられる、ステップと、
    前記目標タスクタイプに関連付けられた連続的なプロンプト語彙リストからランダムな長さの連続的なプロンプトを取得して前記サンプル自然言語テキストのタスクタイプのプロンプトとするステップと、
    を行うようにさらに構成される請求項に記載のモデル事前訓練装置。
  11. プロンプトにはトピックタイプのプロンプトが含まれ、
    前記第1の生成モジュールは、
    前記サンプル自然言語テキストを事前訓練されたトピック分類モデルに入力して、前記サンプル自然言語テキストのトピックタイプのプロンプトを取得するようにさらに構成される請求項に記載のモデル事前訓練装置。
  12. プロンプトには注目点タイプのプロンプトが含まれ、
    前記第1の生成モジュールは、
    前記サンプル自然言語テキストを事前訓練された注目点抽出モデルに入力して、前記サンプル自然言語テキストの注目点タイプのプロンプトを取得するようにさらに構成される請求項に記載のモデル事前訓練装置。
  13. プロンプトにはトピックタイプのプロンプトが含まれ、
    前記第1の生成モジュールは、
    前記サンプル自然言語テキストを事前訓練された感情解析モデルに入力して、前記サンプル自然言語テキストの感情タイプのプロンプトを取得するようにさらに構成される請求項に記載のモデル事前訓練装置。
  14. プロンプトには生成長さタイプのプロンプトが含まれ、
    前記第1の生成モジュールは、
    前記サンプル自然言語テキストの長さを、前記サンプル自然言語テキストの生成長さタイプのプロンプトとするようにさらに構成される請求項に記載のモデル事前訓練装置。
  15. 前記訓練モジュールは、
    前記サンプル入力データを初期言語モデルに入力して、サンプル擬似自然言語テキストを得るステップと、
    前記サンプル擬似自然言語テキストと前記サンプル自然言語テキストとの差異に基づいて、前記初期言語モデルのパラメータを調整して、前記事前訓練言語モデルを得るステップと、
    を行うようにさらに構成される、請求項に記載のモデル事前訓練装置。
  16. プレフィックス・テキスト・フラグメントおよび少なくとも1タイプのプロンプトを取得するように構成される取得モジュールと、
    前記プレフィックス・テキスト・フラグメントと前記少なくとも1タイプのプロンプトとをスプライシングして入力データを生成するように構成されるスプライシングモジュールと、
    請求項15のいずれか1項に記載のモデル事前訓練装置を用いて訓練された事前訓練言語モデルに前記入力データを入力し、擬似自然言語テキストを生成するように構成される生成モジュールと、
    を備えるテキスト生成装置。
  17. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されたメモリとを備える電子機器であって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が格納され、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~のいずれか1項に記載のモデル事前訓練方法を実行させる、電子機器。
  18. コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
    前記コンピュータ指令はコンピュータに請求項1~のいずれか1項に記載のモデル事前訓練方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。
  19. プロセッサによって実行されると、請求項1~のいずれか1項に記載のモデル事前訓練方法が実現されるコンピュータプログラム。
  20. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されたメモリとを備える電子機器であって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が格納され、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項に記載のテキスト生成方法を実行させる、電子機器。
  21. コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
    前記コンピュータ指令はコンピュータに請求項に記載のテキスト生成方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。
  22. プロセッサによって実行されると、請求項に記載のテキスト生成方法が実現されるコンピュータプログラム。
JP2022111132A 2021-10-28 2022-07-11 モデル事前訓練方法および装置、テキスト生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム Active JP7421604B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111260446.4A CN113962315B (zh) 2021-10-28 2021-10-28 模型预训练方法、装置、设备、存储介质以及程序产品
CN202111260446.4 2021-10-28

Publications (2)

Publication Number Publication Date
JP2022153441A JP2022153441A (ja) 2022-10-12
JP7421604B2 true JP7421604B2 (ja) 2024-01-24

Family

ID=79467904

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022111132A Active JP7421604B2 (ja) 2021-10-28 2022-07-11 モデル事前訓練方法および装置、テキスト生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム

Country Status (4)

Country Link
US (1) US20230040095A1 (ja)
EP (1) EP4174715A1 (ja)
JP (1) JP7421604B2 (ja)
CN (1) CN113962315B (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113962315B (zh) * 2021-10-28 2023-12-22 北京百度网讯科技有限公司 模型预训练方法、装置、设备、存储介质以及程序产品
CN114943211A (zh) * 2022-07-25 2022-08-26 北京澜舟科技有限公司 一种基于前缀的文本生成方法、系统及计算机可读存储介质
US20240054282A1 (en) * 2022-08-15 2024-02-15 International Business Machines Corporation Elucidated natural language artifact recombination with contextual awareness
CN116127020A (zh) * 2023-03-03 2023-05-16 北京百度网讯科技有限公司 生成式大语言模型训练方法以及基于模型的搜索方法
CN116204642B (zh) * 2023-03-06 2023-10-27 上海阅文信息技术有限公司 数字阅读中角色隐式属性智能识别分析方法、系统和应用
CN116383652B (zh) * 2023-04-03 2024-02-06 华院计算技术(上海)股份有限公司 模型训练方法、可控文本的生成方法、系统、设备及介质
CN116151194B (zh) * 2023-04-04 2023-07-07 上海燧原科技有限公司 中文通用语言的生成方法、装置、设备及存储介质
CN116386800B (zh) * 2023-06-06 2023-08-18 神州医疗科技股份有限公司 基于预训练语言模型的医疗病历数据分割方法和系统
CN116402166B (zh) * 2023-06-09 2023-09-01 天津市津能工程管理有限公司 一种预测模型的训练方法、装置、电子设备及存储介质
CN116737935B (zh) * 2023-06-20 2024-05-03 青海师范大学 基于提示学习的藏文文本分类方法、装置及存储介质
CN116541752B (zh) * 2023-07-06 2023-09-15 杭州美创科技股份有限公司 元数据管理方法、装置、计算机设备及存储介质
CN116644145B (zh) * 2023-07-26 2023-10-13 北京仁科互动网络技术有限公司 会话数据处理方法、装置、设备和存储介质
CN117216193B (zh) * 2023-09-26 2024-02-27 人民网股份有限公司 基于大语言模型的可控文本生成方法及装置
CN117390497B (zh) * 2023-12-08 2024-03-22 浙江口碑网络技术有限公司 基于大语言模型的类目预测方法、装置和设备
CN117744754B (zh) * 2024-02-19 2024-05-10 浙江同花顺智能科技有限公司 大语言模型任务处理方法、装置、设备及介质
CN117744753B (zh) * 2024-02-19 2024-05-03 浙江同花顺智能科技有限公司 大语言模型的提示词确定方法、装置、设备及介质
CN117743315B (zh) * 2024-02-20 2024-05-14 浪潮软件科技有限公司 一种为多模态大模型系统提供高质量数据的方法
CN117744661B (zh) * 2024-02-21 2024-05-17 中国铁道科学研究院集团有限公司电子计算技术研究所 基于提示词工程的文本生成模型训练方法和文本生成方法
CN117787422B (zh) * 2024-02-27 2024-04-26 四川金信石信息技术有限公司 一种倒闸操作任务提取方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263441A (ja) 2002-03-08 2003-09-19 Nippon Telegr & Teleph Corp <Ntt> キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
JP2015170241A (ja) 2014-03-10 2015-09-28 富士ゼロックス株式会社 多言語文書分類プログラム及び情報処理装置
JP2016091078A (ja) 2014-10-30 2016-05-23 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 生成装置、生成方法、およびプログラム
WO2018126213A1 (en) 2016-12-30 2018-07-05 Google Llc Multi-task learning using knowledge distillation

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263158B (zh) * 2019-05-24 2023-08-01 创新先进技术有限公司 一种数据的处理方法、装置及设备
CN112183091A (zh) * 2020-10-12 2021-01-05 深圳壹账通智能科技有限公司 问答对生成方法、装置、电子设备及可读存储介质
CN113901191A (zh) * 2021-06-16 2022-01-07 北京金山数字娱乐科技有限公司 问答模型的训练方法及装置
CN113468877A (zh) * 2021-07-09 2021-10-01 浙江大学 语言模型的微调方法、装置、计算设备和存储介质
CN113962315B (zh) * 2021-10-28 2023-12-22 北京百度网讯科技有限公司 模型预训练方法、装置、设备、存储介质以及程序产品

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263441A (ja) 2002-03-08 2003-09-19 Nippon Telegr & Teleph Corp <Ntt> キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
JP2015170241A (ja) 2014-03-10 2015-09-28 富士ゼロックス株式会社 多言語文書分類プログラム及び情報処理装置
JP2016091078A (ja) 2014-10-30 2016-05-23 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 生成装置、生成方法、およびプログラム
WO2018126213A1 (en) 2016-12-30 2018-07-05 Google Llc Multi-task learning using knowledge distillation

Also Published As

Publication number Publication date
JP2022153441A (ja) 2022-10-12
CN113962315B (zh) 2023-12-22
CN113962315A (zh) 2022-01-21
EP4174715A1 (en) 2023-05-03
US20230040095A1 (en) 2023-02-09

Similar Documents

Publication Publication Date Title
JP7421604B2 (ja) モデル事前訓練方法および装置、テキスト生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
Chen et al. A survey on dialogue systems: Recent advances and new frontiers
US20190266250A1 (en) Systems and Methods for Generating Jokes
TW202009749A (zh) 人機對話方法、裝置、電子設備及電腦可讀媒體
CN112214591B (zh) 一种对话预测的方法及装置
US11455335B2 (en) Image retrieval using interactive natural language dialog
US10157203B2 (en) Question transformation in question answer systems
JP7309798B2 (ja) 対話意図の認識方法及び装置、電子機器並びに記憶媒体
JP6529761B2 (ja) 話題提供システム、及び会話制御端末装置
KR20210081309A (ko) 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
US20220100756A1 (en) Navigation agent for a search interface
US20240028893A1 (en) Generating neural network outputs using insertion commands
WO2020052061A1 (zh) 用于处理信息的方法和装置
US20230306205A1 (en) System and method for personalized conversational agents travelling through space and time
CN112528654A (zh) 自然语言处理方法、装置及电子设备
CN111382563B (zh) 文本相关性的确定方法及装置
JP2023182707A (ja) 深層学習モデルに基づくデータ生成方法、トレーニング方法及び装置
US11481609B2 (en) Computationally efficient expressive output layers for neural networks
CN112562678A (zh) 基于客服录音的智能对话方法、系统、设备及存储介质
EP4254256A1 (en) Spoken language processing method and apparatus, electronic device, and storage medium
CN109002498B (zh) 人机对话方法、装置、设备及存储介质
CN112464654B (zh) 关键词生成方法、装置、电子设备和计算机可读介质
JP2022088540A (ja) ユーザ興味画像の生成方法、装置、電子機器及び記憶媒体
WO2022251720A1 (en) Character-level attention neural networks
JP2022106980A (ja) クエリ文の生成方法、装置、電子機器及び記憶媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220712

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220712

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240112

R150 Certificate of patent or registration of utility model

Ref document number: 7421604

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150