JP2021121967A

JP2021121967A - テキスト生成方法、装置、機器及び媒体

Info

Publication number: JP2021121967A
Application number: JP2021086013A
Authority: JP
Inventors: リウジアチェン; Jiachen Liu; ホゥジョーァ; Zhe Hu; シヤオシンイエン; Xinyan Xiao; ウーホワ; Hua Wu
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-22
Filing date: 2021-05-21
Publication date: 2021-08-26
Also published as: US20210286934A1; CN112257393B; CN112257393A; US11675983B2

Abstract

【課題】訓練コーパス数への依存性を大幅に低減し、さまざまなタスクの特定ニーズを満たすことが可能なテキスト生成方法、装置、機器及び媒体を提供する。【解決手段】方法は、事前訓練された汎用生成モデルによってサポートされる複数タスクの中から、ターゲットタスクを決定することと、ターゲットタスクの出力テキストに対する要求に基づいて、汎用テキスト生成モデルによってサポートされる複数の出力テキスト属性の中から、ターゲットタスクに対する第１のターゲット出力テキスト属性を決定することと、ターゲットタスクに対するタスク指示情報と、第１のターゲット出力テキスト属性に対する第１の属性指示情報とを汎用生成モデルの入力の少なくとも一部とすることにより、ターゲットタスクに関連付けられたターゲット訓練データセットに基づいて汎用モデルを調整して、タスク特定モデルを取得することと、を含む。【選択図】図５

Description

本開示は、一般には、人工知能の分野、特に自然言語処理技術に関する。

テキスト自動生成は自然言語処理の分野における重要な研究方向である。テキスト生成とは、モデルを使用して、入力テキストが与えられた場合に所望の出力テキストを生成することである。テキスト生成の１つの適用例として、ある言語のテキストを別の言語のテキストに翻訳し得る機械翻訳が含まれる。他のテキスト生成タスクの適用としては、自動インタラクション、要約生成などが含まれる。テキスト生成アルゴリズムの研究開発は著しく進展しているが、テキスト生成は、訓練コーパスへの依存性が高いことやモデルの汎用性が低いことなど、いくつかの課題に直面している。このため、テキスト生成プロセスのさらなる改善が期待される。

本開示の実施例によれば、テキスト生成方法、装置、機器、及び記憶媒体を提供する。

本開示の第１の態様によれば、テキスト生成方法を提供する。該方法は、
事前訓練された汎用テキスト生成モデルによってサポートされる複数のタスクタイプの中から、ターゲットテキスト生成タスクのターゲットタスクタイプを決定することと、
ターゲットテキスト生成タスクのターゲット出力テキストに対する要求に基づいて、汎用テキスト生成モデルによってサポートされる複数の出力テキスト属性の中から、ターゲットテキスト生成タスクに対する少なくとも１つの第１のターゲット出力テキスト属性を決定することと、
ターゲットタスクタイプに対するタスク指示情報と、少なくとも１つの第１のターゲット出力テキスト属性に対する第１の属性指示情報とを、汎用テキスト生成モデルの入力の少なくとも一部とすることにより、ターゲットテキスト生成タスクに関連付けられたターゲット訓練データセットに基づいて汎用テキスト生成モデルを調整して、ターゲットテキスト生成タスクに対するタスク特定テキスト生成モデルを取得することとを含む。

本開示の第２の態様によれば、テキスト生成装置を提供する。該装置は、
事前訓練された汎用テキスト生成モデルによってサポートされる複数のタスクタイプの中から、ターゲットテキスト生成タスクのターゲットタスクタイプを決定するように構成されるタスクタイプ決定モジュールと、
前記ターゲットテキスト生成タスクのターゲット出力テキストに対する要求に基づいて、前記汎用テキスト生成モデルによってサポートされる複数の出力テキスト属性の中から、前記ターゲットテキスト生成タスクに対する少なくとも１つの第１のターゲット出力テキスト属性を決定するように構成される第１の属性決定モジュールと、
前記ターゲットタスクタイプに対するタスク指示情報と、前記少なくとも１つの第１のターゲット出力テキスト属性に対する第１の属性指示情報とを、前記汎用テキスト生成モデルの入力の少なくとも一部とすることにより、前記ターゲットテキスト生成タスクに関連付けられたターゲット訓練データセットに基づいて前記汎用テキスト生成モデルを調整して、前記ターゲットテキスト生成タスクに対するタスク特定テキスト生成モデルを取得するように構成されるモデル調整モジュールとを含む。

本開示の第３の態様によれば、電子機器を提供する。該電子機器は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信可能に接続されたメモリとを含む。少なくとも１つのプロセッサにより実行されると、第１の態様の方法を少なくとも１つのプロセッサに実行させる、少なくとも１つのプロセッサによって実行可能な命令がメモリに記憶されている。

本開示の第４の態様によれば、コンピュータ命令が記憶されているコンピュータ読み取り可能な記憶媒体を提供する。コンピュータ命令は、第１の態様の方法をコンピュータに実行させる。

本開示の第５の態様によれば、コンピュータプログラム製品を提供する。コンピュータプログラム製品は、プロセッサによって実行されると、第１の態様の方法を実現するコンピュータプログラムを含む。

本開示の実施例によれば、複数のタスクタイプ及び複数の出力テキストシーケンスをサポートする事前訓練された汎用テキスト生成モデルを提供することにより、様々なテキスト生成タスクにおける訓練コーパスの数への依存性を大幅に低減し、さまざまなテキスト生成タスクの特定のニーズを満たすことができる。

なお、本部分で説明される内容は、本開示の実施例の重要な又はキーとなる特徴を識別することを意図しておらず、本開示の範囲を制限することも意図していない。本開示の他の特徴は、以下の明細書によって容易に理解される。

本開示の様々な実施例の上記及び他の特徴、利点、及び態様は、図面をもって、以下の詳細な説明を参照することにより、より明らかになる。図面において、同一又は類似の図面の符号は、同一又は類似の要素を表す。
本開示の複数の実施例が適用され得る環境の概略図を示す。本開示のいくつかの実施例による汎用テキスト生成モデル及びそれに基づいて生成されたタスク特定テキスト生成モデルの構造ブロック図を示す。本開示の別の実施例による汎用テキスト生成モデル及びそれに基づいて生成されたタスク特定テキスト生成モデルの構造ブロック図を示す。本開示のさらに別の実施例による汎用テキスト生成モデル及びそれに基づいて生成されたタスク特定テキスト生成モデルの構造ブロック図を示す。本開示のいくつかの実施例によるテキスト生成方法のフローチャートを示す。本開示のいくつかの実施例によるテキスト生成装置のブロック図を示す。本開示の複数の実施例を実施できる電子機器のブロック図を示す。

以下、図面を参照して本開示の例示的な実施例を説明するが、以下の説明には、理解を容易にするために本開示の実施例の様々な詳細が含まれるが、このような詳細は単に例示的なものとみなされるべきである。したがって、当業者にとって自明なように、本開示の範囲及び精神から逸脱することなく、ここで記載された実施例に様々な変更及び修正が可能である。同様に、以下の説明では、周知の機能及び構造については、明確化及び簡明化のために説明を省略する。

本開示の実施例の説明において、用語「含む」及びその類似の用語は、オープンな包含、すなわち「含むが、これらに限定されない」と理解されるべきである。用語「基づく」は、「少なくとも部分的に基づく」と理解されるべきである。用語「１つの実施例」又は「該実施例」は、「少なくとも１つの実施例」と理解されるべきである。用語「第１の」、「第２の」等は、異なる又は同じ対象を指すことができる。以下には、他の明示的及び暗黙的な定義を含む場合もある。

本明細書で使用される場合、用語「モデル」は、訓練データから対応する入力と出力との間の関連を学習することで、訓練完了後、与えられた入力に対応する出力を生成することができる。モデルの生成は機械学習技術に基づくことができる。深層学習（ＤＬ）は、多層処理ユニットを使用して入力を処理し、対応する出力を提供する機械学習アルゴリズムである。ニューラルネットワーク（ＮＮ）モデルは深層学習に基づくモデルの一例である。本明細書では、「モデル」は、「機械学習モデル」、「学習モデル」、「機械学習ネットワーク」、又は「学習ネットワーク」とも呼ばれ、これらの用語は、本明細書で交換可能に使用される。

通常、機械学習又は深層学習は、訓練段階、テスト段階、及び使用段階（推論段階とも呼ばれる）の３つの段階を大まかに含むことができる。訓練段階では、与えられたモデルは大量の訓練データを使用して訓練し、一致して人知でできる推論と類似した推論を訓練データから得ることができるまで反復することができる。モデルは、訓練により、入力から出力への関連（入力から出力へのマッピングとも呼ばれる）を訓練データから学習できると考えられる。訓練されたモデルのパラメータ値が決定される。テスト段階では、訓練されたモデルにテスト入力を適用し、モデルが正しい出力を提供できるか否かをテストし、これによって、モデルの性能が決定される。使用段階では、モデルは、訓練によって得られたパラメータ値に基づいて、実際の入力を処理し、対応する出力を決定することに使用され得る。

上記のように、現在のテキスト生成の分野では、訓練コーパスへの依存性が高いことやモデルの汎用性が低いなどの問題に直面している。通常、テキスト自動生成の適用では、訓練コーパスを用いてテキスト生成モデルを訓練する。テキスト生成モデルの性能は、モデルが受ける拘束に左右され、これらの拘束は訓練プロセスによって訓練コーパスから学習されたものである。

一方、現在のテキスト生成モデルは、モデルが十分な拘束を学習できるように、大規模な訓練コーパス（「平行コーパス」とも呼ばれる）に依存している。たとえば、機械翻訳タスクの場合、２言語での大量の対応文、自動インタラクションタスクの場合、インタラクションシーンでの複数回のインタラクションテキスト、要約生成タスクの場合、大量の文章と文章の要約が必要とされる。

しかしながら、多くの実用的な適用では、特にテキスト生成タスクに特別な要件がある場合では、適切な大規模なコーパスを取得することは現実的ではない。たとえば、要約生成タスクの場合、テキスト生成タスクのニーズが「ソーシャルメディアの画像や文章に対して、長さ５０字以内の、情緒的に前向きである要約を生成する」ことであれば、実際には、大量の「ソーシャルメディアの画像や文章」とそれに対応する「長さ５０字以内の情緒的に前向きな要約」を訓練コーパスとしてモデルを訓練することは困難である可能性がある。訓練コーパスが不十分であると、モデルの訓練が失敗したり、要件に合致する結果を生成できるようにモデルを拘束するのに十分でない可能性がある。

一方、特定のタスクに対してテキスト生成モデルを訓練すると、モデルには汎用性がない。要件が異なる別のテキスト生成タスクの場合は、モデルの再構築と訓練が必要となる。たとえば、「ソーシャルメディアの画像や文章に対して、長さ５０字以内の、情緒的に前向きで魅力的な要約を生成する」という新たなタスクでは、「魅力的」という新たな要件の導入により、訓練コーパスを再選別してモデルを構築する必要があるが、このプロセスの効果が低く、コーパス規模の低下によって効果が影響を受ける可能性もある。

従来のテキスト生成モデルの訓練手法では、特定のテキスト生成タスクに対して特定の制御を行うことが提案されており、たとえば、文章の要約を生成するタスクの場合、要約のスタイル（たとえば、ユーモア、クリックを引き付けること、ロマンチック）を制御する。別の手法では、テキスト生成モデルの出力テキスト属性を制御することが提案されている。たとえば、インタラクション生成タスクの場合、出力テキストの構文（たとえば疑問文）を制御することで、人手による評価におけるインタラクション生成タスクの効果を高めることができる。しかしながら、これらの手法では、訓練コーパスの不足やモデルの汎用性の悪さの問題を解決できない。

本開示の実施例は、改良されたテキスト生成手法を提案する。この手法は、複数のタスクタイプ及び複数の出力テキスト属性をサポートするように事前訓練された汎用テキスト生成モデルを事前訓練方式により提供する。汎用テキスト生成モデルは、異なるターゲットテキスト生成タスクについてさらに調整することができる。複数のタスクタイプ及び複数の出力テキスト属性の複数の組み合わせにより、タスクタイプ及び出力テキストに対する異なるターゲットテキスト生成タスクのそれぞれの要件を満たす。特定のターゲットテキスト生成タスクに対しては、ターゲットテキスト生成タスクのターゲットタスクタイプ及び要求される１つ以上のターゲット出力テキスト属性が、複数のタスクタイプ及び複数の出力テキスト属性の中からそれぞれ決定された後、ターゲットテキスト生成タスクに関連付けられた訓練データセットを用いて汎用テキスト生成モデルを微調整（ｆｉｎｅｔｕｎｅ）する。ターゲットタスクタイプ及びターゲット出力テキスト属性に対する指示情報は、汎用テキスト生成モデルの入力の少なくとも一部として提供される。

汎用テキスト生成モデルは、事前訓練した上で、タスクに関連付けられた訓練データセットを利用して調整することにより、ターゲットテキスト生成タスクを実行することができる。汎用テキスト生成モデルが少なくともターゲットタスクタイプ及びターゲット出力テキスト属性の拘束を満たすことができるように事前訓練されているので、調整段階では、汎用テキスト生成モデルを少量の訓練データで訓練することにより、特定のターゲットテキスト生成タスクを実行可能なタスク特定テキスト生成モデルとすることができる。これにより、様々なテキスト生成タスクにおける訓練コーパスの数への依存性を大幅に低減し、さまざまなテキスト生成タスクの特定のニーズを満たすことができる。

以下、図面を参照して、本開示のいくつかの例示的な実施例を詳細に説明する。

図１は、本開示の複数の実施例が適用され得る環境１００の概略図を示す。図１に示すように、例示的な環境１００は、汎用テキスト生成モデル１２０を事前訓練するように構成される電子機器１１０を含む。汎用テキスト生成モデル１２０は、入力テキスト１２１に対して出力テキスト１２２を生成するテキスト自動生成モデルとして構成される。事前訓練された汎用テキスト生成モデル１２０は、電子機器１３０に提供される。

電子機器１３０は、特定のターゲットテキスト生成タスクに対して、汎用テキスト生成モデル１２０を調整してタスク特定テキスト生成モデル１４０を取得するように構成される。タスク特定テキスト生成モデル１４０は、調整後に、ターゲットテキスト生成タスクを実行できるようになる。具体的には、タスク特定テキスト生成モデル１４０は、ターゲットテキスト生成タスクに対するターゲット入力テキスト１４１を処理し、ターゲットテキスト生成タスクの要件を満たすターゲット出力テキスト１４２を生成することができる。

図１の電子機器１１０及び／又は１３０は、コンピューティング能力を有する様々な機器であってもよい。たとえば、電子機器１１０及び／又は１３０は、サーバ機器又は端末機器であってもよい。サーバ機器は、たとえば、集中型サーバ、分散型サーバ、メインフレーム、エッジコンピューティング機器、クラウドなどであってもよい。端末機器は、たとえば、スマートフォン、タブレットコンピュータ、デスクトップコンピュータ、ノートパソコン、車載機器、ナビゲーション機器、マルチメディアプレーヤー機器、スマートスピーカー、スマートウェアラブル機器等のような様々な携帯端末又は固定端末であってもよい。なお、図１では分離して示されているが、場合によっては、電子機器１１０及び／又は１３０の機能が単一の物理機器／システムによって実現されてもよい。つまり、単一の物理機器／システムは、モデルの事前訓練、訓練、及び使用を実行するように構成されてもよい。本開示の実施例はこれについて限定されない。

本開示の実施例では、テキスト生成タスクを実現するためのモデリングプロセスにおける訓練コーパスの数への依存性を低減し、モデルの汎用性を向上させるために、事前訓練された汎用テキスト生成モデルのアーキテクチャが提案される。この事前訓練アーキテクチャに基づいて、モデルの入力を制御し、調整プロセスを実行することにより、さまざまなテキスト生成のニーズを満たすテキスト生成モデルを生成して使用することができる。以下、本開示の例示的な実施例の汎用テキスト生成モデルのアーキテクチャ及びその調整されたモデルについて、図２〜図４を参照して詳細に説明する。

図２は、本開示のいくつかの実施例による汎用テキスト生成モデル１２０及びそれに基づいて生成されたタスク特定テキスト生成モデル１４０の構造ブロック図を示す。汎用テキスト生成モデル１２０は、テキスト自動生成を実現し得る任意のモデル構造として構成することができる。図２は、エンコーダ‐デコーダ構造の一例を示し、汎用テキスト生成モデル１２０がエンコーダ２１０とデコーダ２２０とを含む。エンコーダ２１０は、入力テキスト１２１などのモデル入力を受信して処理して、中間特徴表現を生成するように構成される。中間特徴表現は、デコーダ２２０に提供される。デコーダ２２０は、中間特徴表現に基づいて、出力テキスト１２２などのモデル出力を生成する。エンコーダ‐デコーダ構造に加えて、汎用テキスト生成モデル１２０は、テキスト自動生成を実現し得る他のモデル構造として構成されてもよく、本開示の実施例はこれについて限定されない。

本開示の実施例では、汎用テキスト生成モデル１２０は、事前訓練段階において、タスクタイプ２３２‐１、タスクタイプ２３２‐２……タスクタイプ２３２‐Ｎなどを含む制御可能なテキストタスクタイプセット２３０の中の複数（たとえばＮ個）のテキストタスクタイプをサポートするように事前訓練される。後述の説明を容易にするために、これらのタスクタイプは、まとめて又は個別にタスクタイプ２３２と呼ばれる。汎用テキスト生成モデル１２０は、事前訓練段階において、出力テキスト属性２４２‐１、出力テキスト属性２４２‐２……出力テキスト属性２４２‐Ｍ等を含む制御可能な出力テキスト属性セット２４０の中の複数（たとえばＭ個）の出力テキスト属性をサポートするように事前訓練される。したがって、汎用テキスト生成モデル１２０は、汎用制御可能なテキスト生成モデルとも呼ばれる。

複数のテキストタスクタイプ２３２は、異なるタイプのテキスト生成タスクを示す。いわゆる「テキスト生成タスク」は、入力テキストに対してどのような処理を実行して出力テキストを与えるかを示す。テキストタスクタイプの例としては、入力テキストから重要な情報を抽出して出力テキストとすることを要求する要約生成タスクと、入力テキストの意味を変更することなく、字面的に異なるテキストを出力することを要求するテキスト書き換えタスクと、入力テキストと論理的に一貫したスムーズな出力テキストを生成することを要求するテキスト続きタスクと、入力テキストに基づいてインタラクティブ内容を出力テキストとして生成することを要求する自動インタラクションタスクとが含まれるが、これらに制限されない。他のテキストタスクタイプも可能である。汎用テキスト生成モデル１２０によってサポートされる複数のテキストタスクタイプ２３２は、予め設定されてもよく、これらのタイプのテキスト生成タスクがどのように実行されるかを事前訓練プロセスによって学習する。事前訓練プロセスについては、以下で詳細に説明する。

複数の出力テキスト属性２４２は、汎用テキスト生成モデル１２０の出力テキストが異なる点の属性を満たすべきことを指す。出力テキスト属性２４２は、大量のテキスト生成適用において所望の出力テキストに満たされる異なる要件によって予め決定され得る。出力テキスト属性２４２の例としては、出力テキストの長さ、構文、スタイル属性、感情的傾向などが含まれるが、これらに限定されない。各出力テキスト属性２４２は、１つ以上の属性値を有することができる。たとえば、「長さ」属性の場合、出力テキストの異なる長さオプションを指定することができ、「構文」の場合、平叙文、疑問文、反問文、感嘆文などの構文構造を指定することができ、「スタイル属性」の場合、たとえば、誇張、魅力的、平凡、正式など、出力テキストの異なる言語スタイルを指定することができ、「感情的傾向」の場合、出力テキストのポジティブな傾向及びネガティブな感情的傾向を含むことができる。

複数のタスクタイプ２３２及び複数の出力テキスト属性２４２の制御可能性は、自己教師付き学習によって、事前訓練データを用いて汎用テキスト生成モデル１２０に対して事前訓練を実行することで達成され得る。事前訓練の目的は、汎用テキスト生成モデル１２０が、各出力テキスト属性２４２の異なる属性値を区別しながら、複数のタスクタイプ２３２に対応するテキスト生成タスクを入力テキストに対してどのように実行するかを学習できるようにし、出力テキストがこれらの属性を満足できるようにすることである。

複数のタスクタイプ２３２を実行する目的を学習により達成するために、汎用テキスト生成モデル１２０の事前訓練データは、それぞれが１つのタスクタイプ２３２に関連付けられた訓練入力テキスト及び訓練出力テキストを含む複数の事前訓練データセットを含む。たとえば、「要約生成タスク」を示すタスクタイプ２３２については、その事前訓練データセットは、訓練入力テキストとして複数の文章又は段落等を含み、複数の文章又は段落のそれぞれの要約も含む。同様に、他のタスクタイプ２３２についても、そのタスクタイプに適合する訓練入力テキスト及び訓練出力テキストを事前訓練データセットとして提供することができる。

事前訓練段階では、汎用テキスト生成モデル１２０に対して異なる事前訓練データセットを用いてそれぞれ訓練を実行する。事前訓練段階では、あるタスクタイプ２３２に関連付けられた事前訓練データセットの訓練入力テキストを汎用テキスト生成モデル１２０（たとえばエンコーダ２１０）に提供する際に、そのタスクタイプ２３２を示すタスク指示情報も同時に入力としてエンコーダ２１０に提供する。このタスク指示情報は、汎用テキスト生成モデル１２０が現在どのタスクタイプについて学習するかを識別するのに役立つ。タスク指示情報は、複数のタスクタイプ２３２のうちの特定のタスクタイプをラベル付けすることができる任意の情報であってもよい。たとえば、Ｎ個のタスクタイプが存在する場合、タスク指示情報は、異なるタスクタイプがバイナリシーケンス内の対応するフラグビットに対応するＮ次元のバイナリシーケンスとして決定することができる。

各タスクタイプ２３２に関連付けられた事前訓練データセットを用いて汎用テキスト生成モデル１２０を訓練する場合、汎用テキスト生成モデル１２０の訓練の目的は、入力テキストに基づいてタスクの要件を満たす出力テキストを生成することである。汎用テキスト生成モデル１２０は、複数のタスクタイプ２３２に関連付けられた事前訓練データセット及びそれぞれのタスク指示情報によって、マルチタスク処理の能力を学習することができる。

複数の出力テキスト属性２４２については、類似の方式を利用して、入力テキスト及び異なる出力テキスト属性２４２を有する出力テキストを含む１つ以上の事前訓練データセットによって、汎用テキスト生成モデル１２０を事前訓練することもできる。マルチタスクタイプの学習のように互いに独立して実行する必要があるのとは異なり、汎用テキスト生成モデル１２０は、２つ以上の出力テキスト属性２４２を同時に学習することができる。たとえば、事前訓練データセットの訓練出力テキストは、２つ以上の出力テキスト属性２４２を有するようにラベル付けすることができ、これにより、この事前訓練データセットに基づく事前訓練は、汎用テキスト生成モデル１２０が、これらの出力テキスト属性２４２を満たす出力テキストをどのように出力するかを同時に学習することを可能にする。これにより、事前訓練プロセスを高速化することができる。

複数のタスクタイプ２３２の事前訓練と同様に、１つ以上の出力テキスト属性２４２に関連付けられた事前訓練データセットの訓練入力テキストを汎用テキスト生成モデル１２０（たとえば、エンコーダ２１０）に提供する際に、出力テキスト属性２４２を示す属性指示情報も同時に入力としてエンコーダ２１０に提供し、汎用テキスト生成モデル１２０が現在どのありいはどちらの出力テキスト属性２４２について学習されているかを識別するのに役立つ。属性指示情報は、複数の出力テキスト属性２４２のうちの特定の出力テキスト属性をラベル付けすることができる任意の情報であってもよい。たとえば、Ｍ個の出力テキスト属性が存在する場合、属性指示情報は、異なる出力テキスト属性２４２がバイナリシーケンス内の対応するフラグビットに対応するＭ次元のバイナリシーケンスとして決定することができる。汎用テキスト生成モデル１２０は、複数の出力テキスト属性２４２に関連付けられた事前訓練データセット及びそれぞれの属性指示情報によって、１つ以上の出力テキスト属性を有する出力テキストを出力する能力を学習することができる。

１つ以上の出力テキスト属性２４２に関連付けられた事前訓練データセットを用いて汎用テキスト生成モデル１２０を訓練する場合、汎用テキスト生成モデル１２０の訓練の目的は、入力テキストに基づいて１つ以上の出力テキスト属性２４２の所望の属性値を満たす出力テキストを生成することである。汎用テキスト生成モデル１２０は、複数の出力テキスト属性２４２に関連付けられた事前訓練データセット及びそれぞれの属性指示情報によって、マルチタスク処理の能力を学習することができる。

いくつかの実施例では、事前訓練をさらに高速化するために、１つ以上のタスクタイプ２３２に対応するテキスト生成タスクを実行するように汎用テキスト生成モデル１２０を訓練する際に、１つ以上の出力テキスト属性２４２に対する拘束を追加することもできる。この場合、タスクタイプ２３２に関連付けられた事前訓練データセットについては、その訓練出力テキストは、１つ以上の出力テキスト属性２４２の異なる属性値としてラベル付けされ得る。たとえば、要約生成タスクの事前訓練データセットについては、各訓練出力テキスト（すなわち、要約）の長さ、構文やスタイル属性などを具体的にラベル付けすることができる。これらの訓練出力テキスト（すなわち、要約）は、学習すべき長さ、構文やスタイル属性などの属性を持つ各属性値として選択される。このような事前訓練データセットを用いて汎用テキスト生成モデル１２０を訓練する場合、汎用テキスト生成モデル１２０の訓練の目的は、入力テキストの要約を生成することであり、出力される要約は、所望の長さ、構文及びスタイル属性を有するものである。

このような事前訓練データセットを用いて汎用テキスト生成モデル１２０を訓練すると、この汎用テキスト生成モデル１２０は、要約をどのように生成するかだけでなく、所望の長さ、構文及びスタイル属性を有するように要約を生成することを学習することができる。他のタスクタイプ２３２及び出力テキスト属性２４２についても、関連付けられた事前訓練データセットを用いて同様の事前訓練を実行することができる。

事前訓練により、汎用テキスト生成モデル１２０は、異なるタスクタイプ及び異なる出力テキスト属性をサポートすることができる。このような汎用テキスト生成モデル１２０は、対応するテキスト生成タスクを実行できるように、特定のテキスト生成タスクに対してさらに調整することができる。図１に説明されるように、汎用テキスト生成モデル１２０の事前訓練は、電子機器１１０によって実行されてもよく、事前訓練された汎用テキスト生成モデル１２０は、特定のテキスト生成タスクに対して調整するように、電子機器１３０に提供されてもよい。

調整を実行する際に、ユーザはターゲットテキスト生成タスクを実行できるテキスト生成モデルを取得することを望む場合がある。汎用テキスト生成モデル１２０のタスクタイプ及び出力テキスト属性を制御し、これに基づいてモデルを調整することにより、タスク特定テキスト生成モデル１４０を生成することができる。

具体的には、ターゲットテキスト生成タスクが与えられた場合、ターゲットテキスト生成タスクのタスクタイプが、汎用テキスト生成モデル１２０によってサポートされる複数のタスクタイプ２３２に含まれるか否かを判定し、ターゲットテキスト生成タスクの出力テキストに対する要求が、複数の出力テキスト属性２４２によって満たされるか否かを判定する。複数のタスクタイプ２３２の中からターゲットテキスト生成タスクのターゲットタスクタイプ２５０を決定でき、そして、複数の出力テキスト属性２４２の中から、１つ以上のターゲット出力テキスト属性２６０が、ターゲットテキスト生成タスクの出力テキストに対する要求を満たすことができると判定された場合、対応するターゲットタスクタイプ２５０及び１つ以上のターゲット出力テキスト属性２６０を選択し、その後のモデル調整を実行する。

たとえば、ターゲットテキスト生成タスクが「入力された文章に対して、長さが５０文字未満で魅力的な要約を生成する」である場合、そのターゲットテキスト生成タスクのタスクタイプは「要約生成タスク」に対応し、出力テキストの「長さ」（たとえば、５０文字未満）と「スタイル属性」（たとえば、魅力的）の両方が要求される。これらのタスクタイプ及び出力テキスト属性は、事前訓練された汎用テキスト生成モデル１２０によって満たされる。

ターゲットタスクタイプ２５０及び１つ以上のターゲット出力テキスト属性２６０が選択された後、ターゲットテキスト生成タスクに関連付けられたターゲット訓練データセットを用いて汎用テキスト生成モデル１２０を調整する。調整プロセスでは、ターゲットタスクタイプ２５０に対するタスク指示情報２５２と、１つ以上のターゲット出力テキスト属性２６０に対する属性指示情報２６２（第１の属性指示情報とも呼ばれることがある）とが、汎用テキスト生成モデル１２０の入力の一部として機能する。すなわち、ターゲット訓練データセットの訓練入力テキストが汎用テキスト生成モデル１２０（たとえばエンコーダ２１０）に入力されると同時に、タスク指示情報２５２及び属性指示情報２６２も入力される。これにより、汎用テキスト生成モデル１２０は、現在学習すべきタスクタイプと出力テキスト属性とを区別することができる。

ターゲットテキスト生成タスクに関連付けられたターゲット訓練データセットは、ターゲットテキスト生成タスクによって要求される訓練入力テキスト及び訓練出力テキストを含む。たとえば、「入力された文章に対して、長さが５０文字未満で魅力的な要約を生成する」ターゲットテキスト生成タスクに対して、訓練入力テキストは文章であり、訓練出力テキストはその文章に対応する「長さが５０文字未満で魅力的な要約」である。汎用テキスト生成モデル１２０は、「要約生成タスク」及び「長さ」や「スタイル属性」などの属性に関してある程度の訓練（すなわち、事前訓練段階）を経ているので、調整の際に、ターゲットテキスト生成タスクに関連付けられたターゲット訓練データセットは、大量の訓練入力テキスト及び訓練出力テキストを提供することなく、ターゲットテキスト生成タスクを良好に実行できるように汎用テキスト生成モデル１２０を迅速に収束させることができる。

調整後、汎用テキスト生成モデル１２０は、タスク特定テキスト生成モデル１４０として訓練することができる。図２に示すように、タスク特定テキスト生成モデル１４０のタスクタイプ（すなわち、ターゲットタスクタイプ２５０）及び出力テキスト属性（すなわち、ターゲット出力テキスト属性２６０）は、ターゲットテキスト生成タスクに対する調整によって固定され、対応するタスク指示情報２５２及び属性指示情報２６２は、モデル入力の一部としてエンコーダ２１０に提供される。

ターゲットテキスト生成タスクを実行する際に、ターゲットテキスト生成タスクに関連付けられたターゲット入力テキスト１４１を取得し、このターゲット入力テキスト１４１は、タスク指示情報２５２及び属性指示情報２６２とともに、タスク特定テキスト生成モデル１４０の入力として、たとえばエンコーダ２１０に入力する。このタスク特定テキスト生成モデル１４０を実行することにより、このタスク特定テキスト生成モデル１４０によって入力を処理し、たとえばデコーダ２２０によって出力を提供することができる。この出力は、ターゲットテキスト生成タスクのターゲット出力テキスト１４２である。ターゲットテキスト生成タスクの実行は、端末機器又はサーバ機器を含む任意の電子機器によって実現され得る。たとえば、ターゲットテキスト生成タスクの実行は、電子機器１３０によって実現されてもよく、電子機器１３０以外の他の機器によって実現されてもよい。

汎用テキスト生成モデル１２０の汎用性により、より多くのターゲットテキスト生成タスクに対して異なるタスク特定テキスト生成モデルを生成することもできる。各タスク特定テキスト生成モデルの調整プロセスは、すべて上記と同様である。汎用テキスト生成モデル１２０によってサポートされる複数のタスクタイプ２３２及び複数の出力テキスト属性２４２は制御可能であるので、これらのタスクタイプ及び出力テキスト属性の様々な組み合わせは、様々なテキスト生成タスクの特定のニーズを満たすことができる。

図２に示す汎用テキスト生成モデル１２０による制御可能なタスクタイプ２３２及び出力テキスト属性２４２のサポートは、事前訓練データセットによってモデル全体の目的関数を構築することによって達成される。一部の実施例では、汎用テキスト生成モデル１２０は１つ以上の出力テキスト属性をサポートすることもでき、これらの出力テキスト属性に対するサポートは、汎用テキスト生成モデル１２０のデコーダ２２０を改造することによって達成される。図３は、そのような例示的な実施例を示す。

図３において、汎用テキスト生成モデル１２０は、出力テキスト属性３２２‐１、出力テキスト属性３２２‐２……出力テキスト属性３２２‐Ｐなどの１つ以上の出力テキスト属性を含む、制御可能な別の出力テキスト属性セット３２０を汎用テキスト生成モデル１２０にサポートさせるためのデコーダ２２０をさらに含む。検討を容易にするために、これらの出力テキスト属性は、まとめて又は個別に出力テキスト属性３２２と呼ばれる。図において複数として示されているが、出力テキスト属性３２２は単一であってもよい。

出力テキスト属性３２２は、汎用テキスト生成モデル１２０の出力テキストにおけるローカル内容の有無を制御することに用いられてもよい。いくつかの実施例では、出力テキスト属性３２２は、指定された単語、句、及び／又は記号が出力テキストに含まれることを要求する。いくつかの実施例では、出力テキスト属性３２２は、指定された単語、句、及び／又は記号が出力テキストに含まれていないことを要求する。そのような出力テキスト属性３２２の具体的な属性値（たとえば、含まれるか含まれない単語、句、及び／又は記号）は、通常、ユーザによって指定され得る。

汎用テキスト生成モデル１２０を事前訓練する際に、複数のタスクタイプ２３２及び複数の出力テキスト属性３２２について上述した事前訓練に加えて、出力テキスト属性３２２についても事前訓練が実行される。特定の出力テキスト属性３２２に対する属性指示情報は、エンコーダ３１０の入力として提供される。エンコーダ３１０は、特定の出力テキスト属性３２２の属性指示情報を処理し、中間出力をデコーダ２２０に提供し、出力テキスト属性３２２に適合する出力テキストを生成するようにデコーダ２２０に促す。エンコーダ３１０の中間出力は、デコーダ２２０の復号結果に影響を与えることができる。たとえば、デコーダ２２０がビームサーチ（ｂｅａｍｓｅａｒｃｈ）に基づいて出力テキスト中の個々の文字を決定する場合、エンコーダ３１０の中間出力を使用して、デコーダ２２０がビームサーチにおいて選択する文字を制御し、出力テキスト属性３２２を満たすように出力テキストを制御することができる。別の例では、エンコーダ３１０の中間出力は、出力テキスト属性３２２によって指定された単語、句、及び／又は記号から復号を開始するように、デコーダ２２０の復号順序を制御し、出力テキストが既知の指定された単語、句、及び／又は記号を含むか、又は含まないかを確保することもできる。

出力テキスト属性３２２は、汎用テキスト生成モデル１２０の出力テキストに対してより強力な制御能力を有し、厳密に満たす必要がある出力テキスト属性を展開するのに適している。ターゲットテキスト生成タスクに対して汎用テキスト生成モデル１２０を調整する際に、ターゲットテキスト生成タスクによって要求されたターゲット出力テキスト属性が制御可能な出力テキスト属性セット３２０に含まれると仮定する。調整プロセスでは、ターゲットテキスト生成タスクによって要求される１つ以上の出力テキスト属性３２２が、制御可能な出力テキスト属性セット３２０から決定される。１つ以上のターゲット出力テキスト属性３２２に対する属性指示情報は、エンコーダ３１０の入力として適用される。属性指示情報は、出力テキスト属性３２２によって指定される内容の埋め込み表現又はベクトル化表現、たとえば、特定の単語又は文が変換されたベクトル化表現を含むことができる。

一例として、ターゲットテキスト生成タスクが、「入力された文章に対して、文章タイトルにおける人名を含む長さ５０文字未満の魅力的な要約を生成する」であると仮定する。このターゲットテキスト生成タスクでは、「文章タイトルにおける人名を含む」は出力テキスト中の特定の内容に対する指示であり、生成される要約には特定の人名が含まれていなければならないことが要求される。したがって、汎用テキスト生成モデル１２０を調整するプロセスでは、出力テキストが特定の単語を含むべき出力テキスト属性３２２を指定し、出力テキスト属性３２２に対する属性指示情報も汎用テキスト生成モデル１２０の入力としてエンコーダ３１０に適用される。

たとえば、「文章タイトルにおける人名を含む」という出力テキスト属性については、調整時にターゲット訓練データセットの訓練入力テキスト（たとえば文章）のタイトルにおける人名を決定し、その人名を属性指示情報としてベクトル化表現に変換する。ある文章を用いて汎用テキスト生成モデル１２０を訓練する場合、その文章のタイトルにおける人名を示すベクトル化表現は同時にエンコーダ３１０に入力される。訓練データセットによる訓練によって、汎用テキスト生成モデル１２０は、出力テキストがエンコーダ３１０によって受信された入力によって指定された属性を満たすように学習することができる。

調整後、タスク特定テキスト生成モデル１４０を得る。タスク特定テキスト生成モデル１４０の入力は、調整段階における汎用テキスト生成モデル１２０の入力と同じである。図３に示すように、ターゲット出力テキスト属性３３０を示す属性指示情報３３２（第２の属性指示情報とも呼ばれる）は、タスク指示情報２５２及び属性指示情報２６２とともにタスク特定テキスト生成モデル１４０に入力され、属性指示情報３３２はエンコーダ３１０に、タスク指示情報２５２及び属性指示情報２６２はエンコーダ２１０に入力される。タスク特定テキスト生成モデル１４０の適用では、属性指示情報３３２は、ターゲット出力テキスト属性３３０について指定された特定の内容（たとえば、具体的に指定された単語、句、及び／又は記号）に基づいて決定される。

上述した例示的な実施例では、汎用テキスト生成モデル１２０によってサポートされるタスクタイプ２３２、出力テキスト属性２４２、及び出力テキスト属性３２２はすべて事前訓練段階において予め指定される。しかしながら、実際の適用では、テキスト生成タスクに対するニーズは多様であり、一部のニーズは、予め指定されたタスクタイプ２３２、出力テキスト属性２４２、及び出力テキスト属性３２２によってカバーされ得ない場合がある。いくつかの実施例では、調整段階における汎用テキスト生成モデル１２０の拡張も提案されている。図４は、そのような例の実現を示す。なお、図３の実施例に基づくタスク特定テキスト生成モデル１４０は、図４に示されている。他の実施例では、図２に示されるタスク特定テキスト生成モデル１４０に基づいて拡張することもできる。

図４に示すように、調整段階では、拡張可能なターゲット出力テキスト属性４１０を追加することにより、タスク特定テキスト生成モデル１４０を生成することができる。ターゲット出力テキスト属性４１０は、特定のターゲットテキスト生成タスクによって要求された、出力テキストが満たす属性であってもよいが、この属性は、汎用テキスト生成モデル１２０によってサポートされる出力テキスト属性２４２及び３２２に含まれない。この場合、汎用テキスト生成モデル１２０の構造に属性制御モデル４２０を導入することができる。

いくつかの実施例では、属性制御モデル４２０が導入されると、ターゲットテキスト生成タスクに関連付けられたターゲット訓練データセットに基づいて、属性制御モデル４２０及び汎用テキスト生成モデル１２０を組み合わせて調整することによって、タスク特定テキスト生成モデル１４０を決定する。

属性制御モデル４２０は、現在のターゲットテキスト生成タスクのターゲット出力テキストに対する要求を満たすように、ターゲット出力テキスト属性４１０を有する出力テキストを出力できるようにデコーダ２２０を制御するように構成される。たとえば、ターゲットテキスト生成タスクが、「入力された文章に対して、文章タイトルにおける人名を含む５０文字未満の長さを有する魅力的で感情的に前向きな要約を生成する」ことであると仮定すると、出力要約の感情的傾向（すなわち、「感情的に前向き」）に対する要求は、図３に示す制御可能な出力テキスト属性セット２４０又は３２０によって満たされない。この場合、出力テキストの感情的傾向の属性を満たすことができる属性制御モデル４２０を導入することが望ましい。

属性制御モデル４２０は、ターゲット出力テキスト属性４１０を有するテキスト生成タスクの出力を案内できるように事前訓練されてもよい。属性制御モデル４２０の入力は、エンコーダ２１０の中間出力であってもよい。属性制御モデル４２０は、エンコーダ２１０からの中間出力を処理し、処理結果に基づいてデコーダ２２０の復号処理を制御することで、ターゲット出力テキスト属性４１０を満たすターゲット出力テキスト１４２を出力することができる。

いくつかの実施例では、属性制御モデル４２０は、エンコーダ２１０（いくつかの実施例ではエンコーダ３１０も含む）の中間出力に基づいて、ターゲット出力テキスト属性４１０を有するターゲット出力テキスト１４２を生成するようにデコーダ２２０を案内するための案内情報を決定できる属性分類器として構成されてもよい。案内情報は、ターゲット出力テキスト属性４１０の異なる属性値を示す分類情報である。案内情報は、ターゲット出力テキスト１４２が特定のターゲット出力テキスト属性４１０を満たすように、出力テキストをデコードする際にデコーダ２２０によって使用することができる。たとえば、案内情報は、ターゲット出力テキスト１４２が「前向き」な感情的傾向を有するように、デコーダ２２０によるターゲット出力テキスト１４２中の単語の選択を案内するために使用されてもよい。

いくつかの実施例では、属性制御モデル４２０は、ターゲット出力テキスト属性４１０に対応する言語モデルとして構成されてもよい。デコーダ２２０は本質的には言語モデルであるので、属性制御モデル４２０は、デコーダと協働してエンコーダの中間出力を復号し、ターゲット出力テキスト属性４１０を有するターゲット出力テキスト１４２を生成することができる。たとえば、属性制御モデル４２０のパラメータをデコーダ２２０のパラメータと融合し、融合されたパラメータに基づいてエンコーダ２１０（及びエンコーダ３１０）の中間出力を復号することができる。

いくつかの実施例では、ターゲットテキスト生成タスクの要件に応じて、汎用テキスト生成モデル１２０によってサポートされない複数のターゲット出力テキスト属性に対応する属性制御モデルを導入することができる。図４によって提供される属性拡張は、汎用テキスト生成モデル１２０がより多くのテキスト生成タスクのニーズに対応できるようにする。

本開示の例示的な実施形態によれば、テキスト生成方法及び装置を提供する。

図５は、本開示のいくつかの実施例によるテキスト生成方法５００のフローチャートを示す。方法５００は、図１の電子機器１３０によって実現することができる。

ブロック５１０において、電子機器１３０は、汎用テキスト生成モデルによってサポートされる複数のタスクタイプの中から、ターゲットテキスト生成タスクのターゲットタスクタイプを決定する。汎用テキスト生成モデルは事前訓練されている。

ブロック５２０において、電子機器１３０は、ターゲットテキスト生成タスクのターゲット出力テキストに対する要求に基づいて、汎用テキスト生成モデルによってサポートされる複数の出力テキスト属性の中から、ターゲットテキスト生成タスクに対する少なくとも１つの第１のターゲット出力テキスト属性を決定する。

ブロック５３０において、電子機器１３０は、ターゲットタスクタイプに対するタスク指示情報と、少なくとも１つの第１のターゲット出力テキスト属性に対する第１の属性指示情報とを、汎用テキスト生成モデルの入力の少なくとも一部とすることにより、ターゲットテキスト生成タスクに関連付けられたターゲット訓練データセットに基づいて汎用テキスト生成モデルを調整して、ターゲットテキスト生成タスクに対するタスク特定テキスト生成モデルを取得する。

いくつかの実施例では、汎用テキスト生成モデルは、それぞれが複数のタスクタイプのうち対応するタスクタイプに関連付けられた訓練入力テキスト及び訓練出力テキストを含む複数の事前訓練データセットに基づいて事前訓練される。

いくつかの実施例では、複数の事前訓練データセットのうちの少なくとも１つの事前訓練データセットの訓練出力テキストは、複数の出力テキスト属性のうちの少なくとも１つの出力テキスト属性の異なる属性値がラベル付けされている。

いくつかの実施例では、汎用テキスト生成モデルは、入力テキストを受信する第１のエンコーダと、出力テキストを生成するデコーダとを少なくとも含み、タスク指示情報及び第１の属性指示情報は、第１のエンコーダに入力される。いくつかの実施例では、汎用テキスト生成モデルを調整することは、ターゲットテキスト生成タスクに対する第２のターゲット出力テキスト属性を示す第２の属性指示情報を決定することと、第２の属性指示情報を汎用テキスト生成モデルの第２のエンコーダの入力として適用することにより、ターゲット訓練データセットに基づいて汎用テキスト生成モデルを調整することとをさらに含む。

いくつかの実施例では、汎用テキスト生成モデルは、入力テキストを受信する第１のエンコーダと、第１のエンコーダの中間出力に基づいて出力テキストを生成するデコーダとを少なくとも含み、タスク指示情報及び第１の属性指示情報は、第１のエンコーダに入力される。いくつかの実施例では、汎用テキスト生成モデルを調整することは、第１のエンコーダの中間出力に基づいて、複数の出力テキスト属性に含まれない第３のターゲット出力テキスト属性を有するターゲット出力テキストを出力するようにデコーダを制御するように構成される属性制御モデルを取得することと、属性制御モデルと汎用テキスト生成モデルとを組み合わせて調整することとをさらに含む。

いくつかの実施例では、属性制御モデルは、第１のエンコーダの中間出力に基づいて、第３のターゲット出力テキスト属性の異なる属性値を示す案内情報を決定することによって、第３のターゲット出力テキスト属性を有するターゲット出力テキストを生成するようにデコーダを案内するように構成される属性分類モデルと、デコーダと協働して第１のエンコーダの中間出力を復号して、第３のターゲット出力テキスト属性を有するターゲット出力テキストを生成するように構成される言語モデルとのうちの少なくとも１つを含む。

いくつかの実施例では、ターゲットテキスト生成タスクは、第１のターゲットテキスト生成タスクであり、方法は、複数のタスクタイプの中から、第２のターゲットテキスト生成タスクの第２のターゲットタスクタイプを決定することと、第２のターゲットテキスト生成タスクのターゲット出力テキストに対する要求に基づいて、複数の出力テキスト属性の中から、第２のターゲットテキスト生成タスクに対する別のターゲット出力テキスト属性を決定することと、第２のターゲットタスクタイプに対する第２のタスク指示情報と、別のターゲット出力テキスト属性に対する別の属性指示情報とを、汎用テキスト生成モデルの入力の少なくとも一部とすることにより、第２のターゲットテキスト生成タスクに関連付けられた第２のターゲット訓練データセットに基づいて汎用テキスト生成モデルを調整して、第２のターゲットテキスト生成タスクに対する別のタスク特定テキスト生成モデルを取得することとをさらに含む。

いくつかの実施例では、方法５００は、ターゲットテキスト生成タスクに対するターゲット入力テキストを取得することと、ターゲット入力テキスト、タスク指示情報、及び第１の属性指示情報をタスク特定テキスト生成モデルの入力として適用することと、タスク特定テキスト生成モデルを実行して、タスク特定テキスト生成モデルの出力をターゲットテキスト生成タスクのターゲット出力テキストとして取得することとをさらに含む。

図６は、本開示のいくつかの実施例によるテキスト生成装置６００の概略ブロック図を示す。装置６００は、図１の電子機器１３０に含まれてもよく、又は、図１の電子機器１３０として実現されてもよい。

図６に示すように、装置６００は、事前訓練された汎用テキスト生成モデルによってサポートされる複数のタスクタイプの中から、ターゲットテキスト生成タスクのターゲットタスクタイプを決定するように構成されるタスクタイプ決定モジュール６１０を含む。装置６００は、ターゲットテキスト生成タスクのターゲット出力テキストに対する要求に基づいて、汎用テキスト生成モデルによってサポートされる複数の出力テキスト属性の中から、ターゲットテキスト生成タスクに対する少なくとも１つの第１のターゲット出力テキスト属性を決定するように構成される第１の属性決定モジュール６２０をさらに含む。装置６００は、ターゲットタスクタイプに対するタスク指示情報と、少なくとも１つの第１のターゲット出力テキスト属性に対する第１の属性指示情報とを、汎用テキスト生成モデルの入力の少なくとも一部とすることにより、ターゲットテキスト生成タスクに関連付けられたターゲット訓練データセットに基づいて汎用テキスト生成モデルを調整して、ターゲットテキスト生成タスクに対するタスク特定テキスト生成モデルを取得するように構成されるモデル調整モジュール６３０をさらに含む。

いくつかの実施例では、汎用テキスト生成モデルは、入力テキストを受信する第１のエンコーダと、出力テキストを生成するデコーダとを少なくとも含み、タスク指示情報及び第１の属性指示情報は、第１のエンコーダに入力される。装置６００は、ターゲットテキスト生成タスクに対する第２のターゲット出力テキスト属性を示す第２の属性指示情報を決定するように構成される第２の属性決定モジュールを含む。モデル調整モジュール６３０は、第２の属性指示情報を汎用テキスト生成モデルの第２のエンコーダの入力として適用することにより、ターゲット訓練データセットに基づいて汎用テキスト生成モデルを調整するように構成される再調整モジュールを含む。

いくつかの実施例では、汎用テキスト生成モデルは、入力テキストを受信する第１のエンコーダと、第１のエンコーダの中間出力に基づいて出力テキストを生成するデコーダとを少なくとも含み、タスク指示情報及び第１の属性指示情報は、第１のエンコーダに入力される。いくつかの実施例では、モデル調整モジュール６３０は、第１のエンコーダの中間出力に基づいて、複数の出力テキスト属性に含まれない第３のターゲット出力テキスト属性を有するターゲット出力テキストを出力するようにデコーダを制御するように構成される属性制御モデルを取得するように構成される拡張属性制御モジュールと、属性制御モデルと汎用テキスト生成モデルとを組み合わせて調整するように構成される組み合わせ調整モジュールとを含む。

いくつかの実施例では、ターゲットテキスト生成タスクは、第１のターゲットテキスト生成タスクである。装置６００は、複数のタスクタイプの中から、第２のターゲットテキスト生成タスクの第２のターゲットタスクタイプを決定するように構成される別のタスクタイプ決定モジュールと、第２のターゲットテキスト生成タスクのターゲット出力テキストに対する要求に基づいて、複数の出力テキスト属性の中から、第２のターゲットテキスト生成タスクに対する別のターゲット出力テキスト属性を決定するように構成される別の属性決定モジュールと、第２のターゲットタスクタイプに対する第２のタスク指示情報と、別のターゲット出力テキスト属性に対する別の属性指示情報とを、汎用テキスト生成モデルの入力の少なくとも一部とすることにより、第２のターゲットテキスト生成タスクに関連付けられた第２のターゲット訓練データセットに基づいて汎用テキスト生成モデルを調整して、第２のターゲットテキスト生成タスクに対する別のタスク特定テキスト生成モデルを取得するように構成される別のモデル調整モジュールとをさらに含む。

いくつかの実施例では、装置６００は、ターゲットテキスト生成タスクに対するターゲット入力テキストを取得するように構成されるテキスト取得モジュールと、ターゲット入力テキスト、タスク指示情報、及び第１の属性指示情報をタスク特定テキスト生成モデルの入力として適用するように構成される入力適用モジュールと、タスク特定テキスト生成モデルを実行して、タスク特定テキスト生成モデルの出力をターゲットテキスト生成タスクのターゲット出力テキストとして取得するように構成されるモデル実行モジュールとをさらに含む。

本開示の例示的な実施形態によれば、電子機器及び読み取り可能な記憶媒体をさらに提供する。

図７は、本開示の実施例を実施するための例示的な電子機器７００の概略ブロック図を示す。電子機器７００は、図１の電子機器１１０又は電子機器１３０として実現されてもよく、又は図１の電子機器１１０又は電子機器１３０に含まれてもよい。

図示されるように、電子機器７００は、読出し専用メモリ（ＲＯＭ）７０２に記憶されたコンピュータプログラム命令又は記憶ユニット７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたコンピュータプログラム命令に従って、様々な適切な動作及び処理を実行することができるコンピューティングユニット７０１を含む。ＲＡＭ７０３には、電子機器７００の動作に必要な様々なプログラム及びデータが記憶されてもよい。コンピューティングユニット７０１、ＲＯＭ７０２及びＲＡＭ７０３は、バス７０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース７０５もバス７０４に接続されている。なお、電子機器７００の様々なコンポーネントは、バスに加えて他の方式で接続されてもよい。

電子機器７００の複数のコンポーネントは、Ｉ／Ｏインターフェース７０５に接続される。これらのコンポーネントは、タッチスクリーン、キーパッド、マウス、トラックボード、タッチパッド、ポインティングスティック、１つ以上のマウスボタン、トラックボール、ジョイスティックなどの入力装置などの入力ユニット７０６と、各種ディスプレイ機器（たとえば、タッチスクリーンであってもよい）、スピーカ、補助照明装置（たとえば、ＬＥＤ）、触覚フィードバック装置（たとえば、振動モータ）などの出力ユニット７０７と、磁気ディスク、光ディスク等の記憶ユニット７０８と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット７０９とを含む。通信ユニット７０９は、インターネットなどのコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して、電子機器７００が他の機器と情報／データを交換することを可能にする。

コンピューティングユニット７０１は、処理能力及びコンピューティング能力を有する様々な汎用及び／又は専用の処理構成要素であってもよい。コンピューティングユニット７０１のいくつかの例には、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）コンピューティングチップ、機械学習モデルアルゴリズムを実行する様々なコンピューティングユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどが含まれるが、これらに限定されるものではない。コンピューティングユニット７０１は、上述した様々な方法及び処理、たとえば、方法５００を実行する。たとえば、いくつかの実施例では、方法５００は、記憶ユニット７０８などの機械読み取り可能な媒体に物理的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部を、ＲＯＭ７０２及び／又は通信ユニット７０９を介して電子機器７００にロード及び／又はインストールすることができる。コンピュータプログラムがＲＡＭ７０３にロードされ、コンピューティングユニット７０１によって実行されると、上述した方法５００の１つ以上のステップを実行することができる。オプションとして、他の実施例では、コンピューティングユニット７０１は、他の任意の適切な方式で（たとえば、ファームウェアによって）方法５００を実行するように構成されてもよい。

本開示の例示的な実現方式によれば、コンピュータ実行可能な命令が記憶されたコンピュータ読み取り可能な記憶媒体を提供し、コンピュータ実行可能な命令は、プロセッサによって実行され、上述した方法を実現する。本開示の例示的な実現方式によれば、プロセッサによって実行されて上述した方法を実現するコンピュータプログラム／コンピュータ実行可能な命令を含むコンピュータプログラム製品をさらに提供する。いくつかの形態では、コンピュータプログラム製品は、非一時的なコンピュータ読み取り可能な媒体に物理的に記憶されてもよい。

ここで記載されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、１つ以上のコンピュータプログラムで実装することを含み、この１つ以上のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈することができ、このプログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、該記憶システム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置にデータ及び命令を転送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高度なプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブル／機械語を使用して実装されてもよい。本明細書に使用される場合、用語「コンピュータ読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（たとえば、磁気ディスク、光ディスク、メモリ、プログラマブル論理装置（ＰＬＤ））を指し、機械読み取り可能な信号としての機械命令を受信するコンピュータ読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、ここで記載されたシステム及び技術はコンピュータ上で実施してもよく、このコンピュータは、ユーザに情報を表示するためのディスプレイ装置（たとえば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがコンピュータに入力を提供するキーボード及びポインティング装置（たとえば、マウス又はトラックボール）とを含む。他の種類の装置は、ユーザとのインタラクションを提供するためにも使用され得、たとえば、ユーザに提供されるフィードバックは、任意の形態の感知フィードバック（たとえば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、ユーザからの入力は、任意の形式（音声入力、音声入力、又は触覚入力を含む）で受信することができる。

ここで記載されたシステム及び技術は、バックグラウンドコンポーネントを含むコンピューティングシステム（たとえば、データサーバとして）、又はミドルウェアコンポーネントを含むコンピューティングシステム（たとえば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（たとえば、ユーザがここで記載されたシステム及び技術の実施形態とインタラクションできるグラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ）、又はそのようなバックグラウンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムにおいて実現され得る。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信（たとえば、通信ネットワーク）を介して相互に接続することができる。通信ネットワークの例には、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、及びインターネットが含まれる。

コンピュータシステムは、クライアント及びサーバを含むことができる。クライアント及びサーバは、一般的に互いに離れており、通常、通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、対応するコンピュータ上で実行され、互いにクライアント‐サーバ関係を有するコンピュータプログラムによって生成される。

本開示の方法を実施するためのプログラムコードは、１つ以上のプログラミング言語の任意の組み合わせを用いてプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されて、プロセッサ又はコントローラによって実行されると、プログラムコードがフローチャート及び／又はブロック図に指定された機能／動作を実施するようにしてもよい。プログラムコードは、完全にマシン上で実行されてもよく、部分的にマシン上で実行されてもよく、スタンドアロンパッケージとして一部がマシン上で実行され且つ一部がリモートマシン上で実行されてもよく、又は完全にリモートマシン又はサーバ上で実行されてもよい。

本開示の文脈では、コンピュータ読み取り可能な媒体は、命令実行システム、装置、又は機器によって使用されるために、又は命令実行システム、装置、又は機器とともに使用されるためのプログラムを含み、又は格納することができる有形媒体とすることができる。コンピュータ読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。コンピュータ読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体的なシステム、装置又は機器、あるいはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されるものではない。機械読み取り可能な記憶媒体のより具体的な例は、１つ以上のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルのコンパクトディスク読み取り専用メモリ（ＣＤ‐ＲＯＭ）、光学記憶機器、磁気記憶機器、又はこれらの任意の適切な組み合わせを含む。

なお、上記の様々な形態のプロセスを使用して、ステップを並べ替えたり、追加したり、削除したりすることができる。たとえば、本出願に記載された各ステップは、本開示に開示された技術案によって期待される結果を達成できる限り、並行して実行されてもよいし、連続的に実行されてもよいし、異なる順序で実行されてもよく、本明細書において限定しない。

上記の具体的な実施形態は、本開示の特許範囲に対する制限を構成しない。当業者が理解できるように、設計要件及びその他の要素に応じて、様々な修正、組み合わせ、サブ組み合わせ及び代替が可能である。本開示の精神及び原則の範囲内で行われたいかなる修正、同等の置換や改良も、本開示の特許範囲に含まれるべきである。

Claims

事前に訓練された汎用テキスト生成モデルによってサポートされる複数のタスクタイプの中から、ターゲットテキスト生成タスクのターゲットタスクタイプを決定することと、
前記ターゲットテキスト生成タスクのターゲット出力テキストに対する要求に基づいて、前記汎用テキスト生成モデルによってサポートされる複数の出力テキスト属性の中から、前記ターゲットテキスト生成タスクに対する少なくとも１つの第１のターゲット出力テキスト属性を決定することと、
前記ターゲットタスクタイプに対するタスク指示情報と、前記少なくとも１つの第１のターゲット出力テキスト属性に対する第１の属性指示情報とを、前記汎用テキスト生成モデルの入力の少なくとも一部とすることにより、前記ターゲットテキスト生成タスクに関連付けられたターゲット訓練データセットに基づいて前記汎用テキスト生成モデルを調整して、前記ターゲットテキスト生成タスクに対するタスク特定テキスト生成モデルを取得することとを含む、テキスト生成方法。
前記汎用テキスト生成モデルは、前記複数のタスクタイプのうちの対応するタスクタイプに関連付けられた訓練入力テキスト及び訓練出力テキストをそれぞれ含む複数の事前訓練データセットに基づいて事前に訓練される、請求項１に記載の方法。
前記複数の事前訓練データセットのうちの少なくとも１つの事前訓練データセットの訓練出力テキストは、前記複数の出力テキスト属性のうちの少なくとも１つの出力テキスト属性の異なる属性値がラベル付けされている、請求項２に記載の方法。
前記汎用テキスト生成モデルは、入力テキストを受信する第１のエンコーダと、出力テキストを生成するデコーダとを少なくとも含み、前記タスク指示情報及び前記第１の属性指示情報は、前記第１のエンコーダに入力され、
前記汎用テキスト生成モデルを調整することは、
前記ターゲットテキスト生成タスクに対する第２のターゲット出力テキスト属性を示す第２の属性指示情報を決定することと、
前記第２の属性指示情報を前記汎用テキスト生成モデルの第２のエンコーダの入力として適用することにより、前記ターゲット訓練データセットに基づいて前記汎用テキスト生成モデルを調整することとをさらに含む、請求項１に記載の方法。
前記汎用テキスト生成モデルは、入力テキストを受信する第１のエンコーダと、前記第１のエンコーダの中間出力に基づいて出力テキストを生成するデコーダとを少なくとも含み、前記タスク指示情報及び前記第１の属性指示情報は、前記第１のエンコーダに入力され、
前記汎用テキスト生成モデルを調整することは、
前記第１のエンコーダの前記中間出力に基づいて、前記複数の出力テキスト属性に含まれない第３のターゲット出力テキスト属性を有する前記ターゲット出力テキストを出力するように前記デコーダを制御するように構成される属性制御モデルを取得することと、
前記属性制御モデルと前記汎用テキスト生成モデルとを組み合わせて調整することとをさらに含む、請求項１に記載の方法。
前記属性制御モデルは、
前記第１のエンコーダの前記中間出力に基づいて、前記第３のターゲット出力テキスト属性の異なる属性値を示す案内情報を決定することによって、前記第３のターゲット出力テキスト属性を有する前記ターゲット出力テキストを生成するように前記デコーダを案内するように構成される属性分類モデルと、
前記デコーダと協働して前記第１のエンコーダの前記中間出力を復号して、前記第３のターゲット出力テキスト属性を有する前記ターゲット出力テキストを生成するように構成される言語モデルとのうちの少なくとも１つを含む、請求項５に記載の方法。
前記ターゲットテキスト生成タスクは、第１のターゲットテキスト生成タスクであり、
前記複数のタスクタイプの中から、第２のターゲットテキスト生成タスクの第２のターゲットタスクタイプを決定することと、
前記第２のターゲットテキスト生成タスクのターゲット出力テキストに対する要求に基づいて、前記複数の出力テキスト属性の中から、前記第２のターゲットテキスト生成タスクに対する別のターゲット出力テキスト属性を決定することと、
前記第２のターゲットタスクタイプに対する第２のタスク指示情報と、前記別のターゲット出力テキスト属性に対する別の属性指示情報とを、前記汎用テキスト生成モデルの入力の少なくとも一部とすることにより、前記第２のターゲットテキスト生成タスクに関連付けられた第２のターゲット訓練データセットに基づいて前記汎用テキスト生成モデルを調整して、前記第２のターゲットテキスト生成タスクに対する別のタスク特定テキスト生成モデルを取得することとをさらに含む、請求項１に記載の方法。
前記ターゲットテキスト生成タスクに対するターゲット入力テキストを取得することと、
前記ターゲット入力テキスト、前記タスク指示情報、及び前記第１の属性指示情報を前記タスク特定テキスト生成モデルの入力として適用することと、
前記タスク特定テキスト生成モデルを実行して、前記タスク特定テキスト生成モデルの出力を前記ターゲットテキスト生成タスクの前記ターゲット出力テキストとして取得することとをさらに含む、請求項１に記載の方法。
事前に訓練された汎用テキスト生成モデルによってサポートされる複数のタスクタイプの中から、ターゲットテキスト生成タスクのターゲットタスクタイプを決定するタスクタイプ決定モジュールと、
前記ターゲットテキスト生成タスクのターゲット出力テキストに対する要求に基づいて、前記汎用テキスト生成モデルによってサポートされる複数の出力テキスト属性の中から、前記ターゲットテキスト生成タスクに対する少なくとも１つの第１のターゲット出力テキスト属性を決定する第１の属性決定モジュールと、
前記ターゲットタスクタイプに対するタスク指示情報と、前記少なくとも１つの第１のターゲット出力テキスト属性に対する第１の属性指示情報とを、前記汎用テキスト生成モデルの入力の少なくとも一部とすることにより、前記ターゲットテキスト生成タスクに関連付けられたターゲット訓練データセットに基づいて前記汎用テキスト生成モデルを調整して、前記ターゲットテキスト生成タスクに対するタスク特定テキスト生成モデルを取得するモデル調整モジュールとを含む、テキスト生成装置。
前記汎用テキスト生成モデルは、前記複数のタスクタイプのうちの対応するタスクタイプに関連付けられた訓練入力テキスト及び訓練出力テキストをそれぞれ含む複数の事前訓練データセットに基づいて事前に訓練される、請求項９に記載の装置。
前記複数の事前訓練データセットのうちの少なくとも１つの事前訓練データセットの訓練出力テキストは、前記複数の出力テキスト属性のうちの少なくとも１つの出力テキスト属性の異なる属性値がラベル付けされている、請求項１０に記載の装置。
前記汎用テキスト生成モデルは、入力テキストを受信する第１のエンコーダと、出力テキストを生成するデコーダとを少なくとも含み、前記タスク指示情報及び前記第１の属性指示情報は、前記第１のエンコーダに入力され、
前記ターゲットテキスト生成タスクに対する第２のターゲット出力テキスト属性を示す第２の属性指示情報を決定する第２の属性決定モジュールをさらに含み、
前記モデル調整モジュールは、
前記第２の属性指示情報を前記汎用テキスト生成モデルの第２のエンコーダの入力として適用することにより、前記ターゲット訓練データセットに基づいて前記汎用テキスト生成モデルを調整する再調整モジュールを含む、請求項９に記載の装置。
前記汎用テキスト生成モデルは、入力テキストを受信する第１のエンコーダと、前記第１のエンコーダの中間出力に基づいて出力テキストを生成するデコーダとを少なくとも含み、前記タスク指示情報及び前記第１の属性指示情報は、前記第１のエンコーダに入力され、
前記モデル調整モジュールは、
前記第１のエンコーダの前記中間出力に基づいて、前記複数の出力テキスト属性に含まれない第３のターゲット出力テキスト属性を有する前記ターゲット出力テキストを出力するように前記デコーダを制御するように構成される属性制御モデルを取得する拡張属性制御モジュールと、
前記属性制御モデルと前記汎用テキスト生成モデルとを組み合わせて調整する組み合わせ調整モジュールとを含む、請求項９に記載の装置。
前記属性制御モデルは、
前記第１のエンコーダの前記中間出力に基づいて、前記第３のターゲット出力テキスト属性の異なる属性値を示す案内情報を決定することによって、前記第３のターゲット出力テキスト属性を有する前記ターゲット出力テキストを生成するように前記デコーダを案内するように構成される属性分類モデルと、
前記デコーダと協働して前記第１のエンコーダの前記中間出力を復号して、前記第３のターゲット出力テキスト属性を有する前記ターゲット出力テキストを生成するように構成される言語モデルとのうちの少なくとも１つを含む、請求項１３に記載の装置。
前記ターゲットテキスト生成タスクは、第１のターゲットテキスト生成タスクであり、
前記複数のタスクタイプの中から、第２のターゲットテキスト生成タスクの第２のターゲットタスクタイプを決定する別のタスクタイプ決定モジュールと、
前記第２のターゲットテキスト生成タスクのターゲット出力テキストに対する要求に基づいて、前記複数の出力テキスト属性の中から、前記第２のターゲットテキスト生成タスクに対する別のターゲット出力テキスト属性を決定する別の属性決定モジュールと、
前記第２のターゲットタスクタイプに対する第２のタスク指示情報と、前記別のターゲット出力テキスト属性に対する別の属性指示情報とを、前記汎用テキスト生成モデルの入力の少なくとも一部とすることにより、前記第２のターゲットテキスト生成タスクに関連付けられた第２のターゲット訓練データセットに基づいて前記汎用テキスト生成モデルを調整して、前記第２のターゲットテキスト生成タスクに対する別のタスク特定テキスト生成モデルを取得する別のモデル調整モジュールとを含む、請求項９に記載の装置。
前記ターゲットテキスト生成タスクに対するターゲット入力テキストを取得するテキスト取得モジュールと、
前記ターゲット入力テキスト、前記タスク指示情報、及び前記第１の属性指示情報を前記タスク特定テキスト生成モデルの入力として適用する入力適用モジュールと、
前記タスク特定テキスト生成モデルを実行して、前記タスク特定テキスト生成モデルの出力を前記ターゲットテキスト生成タスクの前記ターゲット出力テキストとして取得するモデル実行モジュールとをさらに含む、請求項９に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリとを含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも１つのプロセッサにより実行される際に、請求項１〜８のいずれか１項に記載の方法を前記少なくとも１つのプロセッサに実行させる、電子機器。
請求項１〜８のいずれか１項に記載の方法をコンピュータに実行させるためのコンピュータ命令が記憶されているコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される際に、請求項１〜８のいずれか１項に記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品。