JP2023536103A

JP2023536103A - 制御可能なテキスト要約化のためのシステムおよび方法

Info

Publication number: JP2023536103A
Application number: JP2023505847A
Authority: JP
Inventors: ホー，ジュンシャン; クリスシンスキー，ヴォイチェフ; マッカン，ブライアン
Original assignee: セールスフォースインコーポレイテッド
Priority date: 2020-08-28
Filing date: 2021-08-10
Publication date: 2023-08-23
Also published as: US20220067284A1; CN116097248A; EP4204991A1; US11934781B2; WO2022046403A1

Abstract

本明細書で説明される実施形態は、要約を手動で編集または書くことなく、例えば、ユーザが、実際に、様々な粒度下で特定の情報を追加または削除することなく、ユーザが要約の生成を制御することを可能にする柔軟で制御可能な要約化システムを提供する。具体的には、要約化システムは、キーワード操作を通じて制御可能な要約化を実行する。ニューラルネットワークモデルは、キーワードとソース文書の両方を条件とする要約を生成するように学習され、その結果、テスト時に、ユーザは、キーワードインターフェースを通してニューラルネットワークモデルと対話することができ、潜在的にマルチファクタ制御を可能にする。

Description

［相互参照］
本開示は、２０２０年１２月１７日に出願された米国特許出願第１７／１２５，４６８号および２０２０年８月２８日に出願された米国仮出願第６３／０７１，５７１号の優先権を主張し、これらは、参照によりその全体が本明細書に明示的に組み込まれる。

［技術分野］
本開示は、一般に、機械学習モデルおよびニューラルネットワークに関し、より具体的には、制御可能なテキスト要約化フレームワークに関する。

テキスト要約化は、文書を文書の「要約」として短い段落またはセンテンスに圧縮するが、要約は、文書からの主要情報を保持することが期待される。既存の要約化システムの中には、文書から重要なセンテンスを抽出して要約を作成するものもあれば、独自に選択したセンテンスをまとめて一から要約を作成するものもある。これらの要約化システムは、入力文書のみに依存して要約を生成するので、入力文書に対して１つのバージョンの要約となることが多い。この普遍的なバージョンの要約では、時々、要約を要求するユーザの異なる関心を捉えることができない場合がある。

本明細書で説明される実施形態による、要約化システムの例示的なニューラルネットワークモデル図を示すブロック図を示す。本明細書で説明される実施形態による、テスト時における要約化システムのための制御ワークフローを示すブロック図を示す。本明細書で説明される実施形態による、制御可能な要約化のキーワードベースモデルの推論段階を示す例示的な図を示す。いくつかの実施形態による、要約化システムを実装するためのコンピューティングデバイスの簡略図である。本明細書で説明されるいくつかの実施形態による、図２に示されるキーワードベース要約化モデルをトレーニングするための方法を示す簡略化された論理フロー図である。本明細書で説明されるいくつかの実施形態による、推論段階中に、図２に示されるキーワードベースモデルを使用して、制御された要約を生成するための方法を示す簡略化された論理フロー図である。本明細書で説明される一実施形態による、異なるユーザ制御の構成パラメータに基づいて生成された結果として得られる要約を示す定性的な例を提供する。本明細書で説明されるいくつかの実施形態による、本明細書で説明されるキーワードベースモデルの例示的なテスト性能を既存のモデルと比較したものを示す例示的なデータチャートを提供する。本明細書で説明されるいくつかの実施形態による、本明細書で説明されるキーワードベースモデルの例示的なテスト性能を既存のモデルと比較したものを示す例示的なデータチャートを提供する。本明細書で説明されるいくつかの実施形態による、本明細書で説明されるキーワードベースモデルの例示的なテスト性能を既存のモデルと比較したものを示す例示的なデータチャートを提供する。本明細書で説明されるいくつかの実施形態による、本明細書で説明されるキーワードベースモデルの例示的なテスト性能を既存のモデルと比較したものを示す例示的なデータチャートを提供する。本明細書で説明されるいくつかの実施形態による、本明細書で説明されるキーワードベースモデルの例示的なテスト性能を既存のモデルと比較したものを示す例示的なデータチャートを提供する。本明細書で説明されるいくつかの実施形態による、本明細書で説明されるキーワードベースモデルの例示的なテスト性能を既存のモデルと比較したものを示す例示的なデータチャートを提供する。本明細書で説明されるいくつかの実施形態による、本明細書で説明されるキーワードベースモデルの例示的なテスト性能を既存のモデルと比較したものを示す例示的なデータチャートを提供する。本明細書で説明されるいくつかの実施形態による、本明細書で説明されるキーワードベースモデルの例示的なテスト性能を既存のモデルと比較したものを示す例示的なデータチャートを提供する。

図および添付書類において、同じ名称を有する要素は、同じまたは同様の機能を有する。

既存の要約化システムは、多くの場合、入力文書のみに依存して要約を生成するので、入力文書に対して１つのバージョンの要約となることが多い。この普遍的なバージョンの要約では、時々、要約を要求するユーザの異なる関心を捉えることができない場合がある。例えば、文書がスポーツニュースに関するニュース記事を含む場合、ユーザは、特定の選手に焦点を当てた要約、またはユーザの関心もしくは利用可能な時間を考慮して異なる長さの要約を望み得る。異なるバージョンの要約に対するユーザの好みは、トピックまたは特定のセクション（学術論文または書籍を要約化する場合）などの他の制御要因にも拡張され得る。

ユーザの好みを反映する文書のカスタマイズされた要約を生成する必要性を考慮して、本明細書で説明される実施形態は、要約を手動で編集または書くことなく、例えば、ユーザが、実際に、様々な粒度下で特定の情報を追加または削除することなく、ユーザが要約の生成を制御することを可能にする柔軟で制御可能な要約化システムを提供する。具体的には、要約化システムは、キーワード操作を通じて制御可能な要約化を実行する。ニューラルネットワークモデルは、キーワードとソース文書の両方を条件とする要約を生成するように学習され、その結果、テスト時に、ユーザは、キーワードインターフェースを通してニューラルネットワークモデルと対話することができ、潜在的にマルチファクタ制御を可能にする。

例えば、制御可能な要約化システムは、ユーザがモデルから要約を制御および操作することを可能にする。ユーザは、ユーザインターフェースを介して、キーワードまたは記述的プロンプト（prompt）のセットの形態で制御トークンを入力し得、それは、ソース記事のユーザの好みを反映するカスタマイズされた要約を生成するために使用され得る。トレーニング時に、モデルは、ソース文書と、外部ガイダンスとして機能するキーワードとの両方を条件とする要約を予測するように学習する。推論中、復号を制約するためのターゲットプレフィックスであるキーワードおよび（例えば、ユーザによって入力された）オプションのプロンプトが、要約生成においてユーザの好みを伝えるための制御トークンとして組み合わされる。

一実施形態では、キーワードおよびプロンプトのユーザは、相補的であり得る。例えば、ユーザは、エンティティ名をキーワードとして入力または選択してもよいし、それぞれエンティティおよび長さを制御するためにキーワードの数を変更してもよい。モデルは、要約のトレーニングから識別することができる追加の入力としてキーワードのみを使用してトレーニングされ得る。このプロセスは、余分な人間のアノテーションも事前定義された制御アスペクト（control aspect）もトレーニングに必要としないが、広範囲のテキスト操作を達成するためにかなり柔軟である。対照的に、ほとんどの既存の要約化システムは、ユーザ入力が要約化プロセスを制御することを可能にしないか、または事前定義された「制御コード」を必要とするかのいずれかであり（Fan et al., Controllable abstractive summarization, in Proceedings of the 2nd Workshop on Neural Machine Translation and Generation, 2018; Liu et al., Controlling length in abstractive summarization using a convolutional neural network, in Proceedings of EMNLP, 2018; Keskar et al., Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858, 2019を参照、これらはすべて、参照によりその全体が本明細書に明示的に組み込まれる）、これは、システムが、トレーニングのためにアノテーションを収集することを必要とし、テスト時に異なるタイプの記事または異なるタイプの制御コマンドなどの未知の制御アスペクトに一般化することができない。

本明細書で使用される場合、「プロンプト」という用語は、要約化システムの復号を制約するためにターゲットプレフィックスとして使用される事前定義されたテキストシーケンスを指すために使用される。例えば、プロンプト「the main contributions of this paper are:(1)」を使用して、学術論文の貢献のリストを要約化するための復号を制約し得る。

本明細書で使用される場合、「ネットワーク」という用語は、任意の人工知能ネットワークもしくはシステム、ニューラルネットワークもしくはシステム、および／またはその上にもしくはそれとともに実装される任意のトレーニングもしくは学習モデルを含む、任意のハードウェアまたはソフトウェアベースフレームワークを含み得る。

本明細書で使用される場合、「モジュール」という用語は、１つまたは複数の機能を実行するハードウェアまたはソフトウェアベースフレームワークを備え得る。いくつかの実施形態では、モジュールは、１つまたは複数のニューラルネットワーク上に実装され得る。

制御可能な要約化の概要
図１Ａは、本明細書で説明される実施形態による、要約化システムの例示的なニューラルネットワークモデル図１００ａを示すブロック図を示す。従来、制約なしニューラル要約化方法は、条件付き分布ｐ（ｙ｜ｘ）を学習するようにトレーニングされ、ここで、ｘおよびｙは、それぞれ、記事および要約などのソース文書を表す。生成された要約は、人間の関与なく、文書ｘのみに依存する。出力要約を制御するために、キーワードｚのような追加の制御トークンを使用して、ユーザの好みを表し得る。したがって、図１００ａは、トレーニング段階において、制御可能な要約化のためのニューラルネットワークモデルが確率ｐ（ｙ｜ｘ，ｚ）をモデル化するように学習されることを示し、ここで、ｘは、ソース文書記事１１０を示し、ｙは、生成された要約１３０を示し、ｚは、記事１１０から抽出されたキーワード１２０を示す。したがって、確率ｐ（ｙ｜ｘ，ｚ）は、ソース文書１１０とキーワード１２０の両方を条件とする要約分布を示す。

図１Ｂは、本明細書で説明される実施形態による、テスト時における要約化システムのための制御ワークフローを示すブロック図１００ｂを示す。図１００ｂは、推論段階において、キーワード操作メカニズムを使用して、ユーザと、「制御センタ」１４０と呼ばれるキーワードインターフェースとをブリッジすることを示す。具体的には、キーワード１２０ａは、ソース文書、例えば記事１１０から自動的に抽出され、制御センタ１４０のユーザインターフェースにおいてユーザ１５０に（オプションで）提示され得る。次いで、ユーザ１５０は、制御トークンｚを挿入するために制御センタ１４０を通して自動キーワード１２０ａと対話し得る。

一実施形態では、制御トークンｚは、トレーニングおよび推論時における追加入力としてキーワードを含み得る。制御トークンは、オプションで、復号プロセスをさらに制約するために、テスト時におけるプロンプトを含んでもよい。制御トークンｚ（キーワード、プロンプト、または両方の組合せの形態の）は、ユーザと、他のブラックボックスニューラルモデルとの間のインターフェースとして機能し得、ユーザが自動要約化を明示的に制御するための柔軟な方法を提供し得る。

例えば、ユーザ１５０は、要約の目標長さ（単語制限）を構成し、より短い要約を生成するためにいくつかの自動キーワードを除去するように制御センタ１４０に促し得る。あるいは、制御センタ１４０は、ユーザ１５０が特定のエンティティ名に関心があることを示す場合、特定のエンティティ関連のキーワードのみを保持することを選択し得る。加えて、ユーザ１５０は、カスタマイズされたキーワードを編集することもでき、これにより、ユーザが要約を手動で直接編集することなく、より柔軟なカスタマイズされた要約化が可能になる。

図２は、本明細書で説明される実施形態による、制御可能な要約化キーワードベースモデル２３０の推論段階を示す例示的な図を示す。図２は、ＮＢＡバスケットボールのニュース記事２１０を示し、参照要約（reference summary）２１５には、いくつかの試合結果が記載されている。しかしながら、レブロン・ジェームズまたはステフィン・カリーなど、これらのバスケットボールチームの特定のスター選手のファンは、彼らがプレーした試合にのみに関心があり、その選手のスコアも知りたいと思う可能性がある。したがって、ユーザ１５０は、キーワードベースモデル２３０における要約生成を制御し得る制御トークン２３２を通して、そのようなユーザの好みを提供し得る。

具体的には、トレーニング時に、キーワードベースモデルは、ソース文書と、外部ガイダンスとして機能するキーワードとの両方を条件とする要約を予測するように学習し得る。例えば、グラウンドトゥルース要約（ground-truth summary）を使用して、ソース文書内のキーワードを識別し得る。この例では、参照要約２１５がトレーニングのために使用され得る。別の例では、「ドウェイン・ウェイド」、「ジェームズ」、または「ステフィン・カリー」などのユーザの関心のある選手の名前についてのユーザの好みに合わせてカスタマイズされたグラウンドトゥルース要約が、ソース文書２１０とともにトレーニングのために使用され得る。

推論中に、復号を制約するためのターゲットプレフィックスであるキーワードおよびオプションのプロンプトを制御トークン２３２として組み合わせて、ユーザの好みを伝達する。具体的には、キーワードは、要約の複数のアスペクトを制御するための汎用インターフェースを提供し、これにより、ユーザは、オプションで、自動的に抽出されたキーワード、ユーザ提供のキーワード、または両方の組合せに依拠することができる。この方法により、テスト時のユーザ制御と、事前トレーニングを含むトレーニングプロセスとが明確に分離される。その結果、キーワードベースモデル２３０は、モデルパラメータを変更することなく、新しい使用事例に適応することができる。例えば、キーワードベースモデル２３０が、トレーニングの際、エンティティまたは長さを制御することに特に焦点を当てるようにトレーニングされない場合でも、当てはまる。

例えば、キーワード２２５は、トレーニングおよびテスト中にキーワードベースモデル２３０に入力され得、プロンプト２２７は、テスト時にオプションで使用される。破線は、制御トークン２３２がソース記事２１０、ユーザ１５０、またはその両方から来る可能性があるオプションの経路を表す。次いで、キーワードベースモデル２３０は、推論時間中の異なるキーワード２２５またはプロンプト２２７に応じて、異なるバージョンの要約２３５ａ～ｃを生成し得る。

コンピュータ環境
図３は、いくつかの実施形態による、要約化システムを実装するためのコンピューティングデバイスの簡略図である。図３に示されるように、コンピューティングデバイス３００は、メモリ３２０に結合されたプロセッサ３１０を含む。コンピューティングデバイス３００の動作は、プロセッサ３１０によって制御される。また、コンピューティングデバイス３００は、１つのプロセッサ３１０のみとともに示されているが、プロセッサ３１０は、コンピューティングデバイス３００内の１つまたは複数の中央処理装置、マルチコアプロセッサ、マイクロプロセッサ、マイクロコントローラ、デジタルシグナルプロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、グラフィックス処理ユニット（ＧＰＵ）などを表し得ることが理解される。コンピューティングデバイス３００は、スタンドアロンサブシステムとして、コンピューティングデバイスに追加されたボードとして、および／または仮想マシンとして実装され得る。

メモリ３２０は、コンピューティングデバイス３００によって実行されるソフトウェア、および／またはコンピューティングデバイス３００の動作中に使用される１つまたは複数のデータ構造を記憶するために使用され得る。メモリ３２０は、１つまたは複数のタイプの機械可読媒体を含み得る。機械可読媒体のいくつかの一般的な形態には、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ(登録商標)－ＥＰＲＯＭ、任意の他のメモリチップもしくはカートリッジ、および／またはプロセッサもしくはコンピュータが読み取るように適合された任意の他の媒体が含まれ得る。

プロセッサ３１０および／またはメモリ３２０は、任意の適切な物理的配置で配置され得る。いくつかの実施形態では、プロセッサ３１０および／またはメモリ３２０は、同じボード上、同じパッケージ内（例えば、システムインパッケージ）、同じチップ上（例えば、システムオンチップ）などに実装され得る。いくつかの実施形態では、プロセッサ３１０および／またはメモリ３２０は、分散、仮想化、および／またはコンテナ化されたコンピューティングリソースを含み得る。そのような実施形態と一致して、プロセッサ３１０および／またはメモリ３２０は、１つまたは複数のデータセンタおよび／またはクラウドコンピューティング施設に配置され得る。

いくつかの例では、メモリ３２０は、１つまたは複数のプロセッサ（例えば、プロセッサ３１０）によって実行されると、１つまたは複数のプロセッサに、本明細書でさらに詳細に説明される方法を実行させ得る実行可能コードを含む非一時的な有形の機械可読媒体を含み得る。例えば、示されるように、メモリ３２０は、システムおよびモデルを実装および／もしくはエミュレートするために、ならびに／または本明細書でさらに説明される方法のうちのいずれかを実装するために使用され得る、制御要約化モジュール３３０のための命令を含む。いくつかの例では、制御可能な要約化モジュール３３０は、入力３４０、例えばソース文書を受信し得る。データインターフェース３１５は、ユーザが入力した入力を受信するユーザインターフェース、またはデータベースから文書を受信または取り出し得る通信インターフェースのいずれかであり得る。制御可能な要約化モジュール３３０は、出力３５０、例えば要約を生成し得る。

いくつかの実施形態では、制御可能な要約化モジュール３３０は、キーワードベースモジュール３３１と、制御センタ３３２とを含む。例えば、キーワードベースモデル３３１は、図２のモデル２３０と同様であり得、これは、トレーニング時およびテスト時に異なるキーワード抽出メカニズムを採用し得る。一実装形態では、制御センタ３３２は、データインターフェース３１５と通信し、データインターフェース３１５から取得されたユーザの好みに基づいて、自動キーワードから、カスタマイズされたキーワードを選択するためのフィルタとして機能し得る。

いくつかの例では、制御可能な要約化モジュール３３０およびサブモジュール３３１～２３２は、ハードウェア、ソフトウェア、および／またはハードウェアとソフトウェアの組合せを使用して実装され得る。

制御可能な要約化ワークフロー
図４は、本明細書で説明されるいくつかの実施形態による、図２に示されるキーワードベース要約化モデルをトレーニングするための方法を示す簡略化された論理フロー図である。方法４００のプロセス４０２～４１２のうちの１つまたは複数は、少なくとも部分的に、１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに、プロセス４０２～４１２のうちの１つまたは複数を実行させ得る、非一時的な有形の機械可読媒体上に記憶された実行可能コードの形態で実装され得る。いくつかの実施形態では、方法４００は、モジュール３３０によって使用される方法に対応し得る。

ステップ４０２において、トレーニングデータセットからの入力文書（例えば、２１０）およびグラウンドトゥルース要約（例えば、２１５）が、例えば、データインターフェース３１５を介して受信され得る。

ステップ４０４において、参照要約２１５とのＲＯＵＧＥスコアを最大化するセンテンスが、文書２１０から貪欲に選択され得る。ＲＯＵＧＥスコアは、全体が参照により本明細書に明示的に組み込まれるいる（Ｌｉｎ，２００４）に定義されているであろう。このステップで、キーワードを、重要なセンテンスに含まれているものに制約する。

ステップ４０６において、抽出されたセンテンスの中で、グラウンドトゥルース要約内のサブシーケンスと一致したすべての最長サブシーケンスが識別される。このマッチングステップは、Gehrmann et al., Bottom-up abstractive summarization, in Proceedings of EMNLP, 2018（その全体が参照により本明細書に明示的に組み込まれるいる）に記載されている複写単語認識方法と同様であり得る。

ステップ４０８において、重複単語およびストップワードがセンテンスから除去され、残りのトークンがキーワードとして保持される。したがって、ほんの少数の特徴語（salient word）のみを出力する他の既存のキーワード抽出方法と比較して、キーワード抽出は、要約に含まれているほとんどの内容語（content word）を保持する。これは、入力（例えば、ソース記事２１０）における所与のキーワードの存在とターゲット（例えば、グラウンドトゥルース要約）における所与のキーワードの存在との間に信頼できる相関を構築することによって、所与のキーワードへの依存を促すものである。そして、ユーザが提供したキーワードがテスト時にモデルによって無視されないことを保証する。

次いで、ステップ４１０において、生成されたキーワードシーケンスは、特殊トークンで分離されてソース文書にプリペンドされ、要約化モデルに供給される。一実施形態では、キーワードシーケンスは、ソース文書内にあったとおりにキーワードの順序を維持する。別の実施形態では、キーワードシーケンスは、この順序付けがソース文書とターゲット要約とで頻繁に異なり得るので、異なる順序のキーワードを採用してもよい。キーワードはまた、特殊トークン（「｜」）を用いて異なるソースセンテンスから分離され得る。例えば、ユーザが自分のキーワードを提案するときなど、センテンスの境界が未知であるアプリケーションでは、「｜」トークンを無視することができる。

ステップ４１２において、キーワードベースモデルは、入力文書ｘおよびキーワードｚを条件とする要約の確率分布ｐ（ｙ｜ｘ，ｚ）を生成する。次いで、要約化モデルは、エンドツーエンド方式でｐ（ｙ｜ｘ，ｚ）を最大化するようにトレーニングされる。例えば、要約化モデルから生成された要約の条件付き確率分布ｐ（ｙ｜ｘ，ｚ）をグラウンドトゥルース要約と比較して、逆伝播を介して要約化モデルを更新するために使用され得るクロスエントロピー損失を計算する。

一実施形態では、ステップ４０４～４０８で説明したキーワード抽出ストラテジは、ソース文書に含まれている要約からのほとんどの単語を保持し得る。正則化がなければ、そのようなキーワードへの依存性は十分に強いので、キーワードベース要約化モデル２３０は、要約内に新規の単語をめったに生成しない可能性がある。これを改善するために、キーワードベース要約化モデル２３０が、キーワードシーケンス内に存在しないソース文書からの重要な情報は引き継ぎながらも、モデルの入力の一部であるキーワードシーケンス内に存在するキーワードに依存することを学習し得るように、トレーニング時にキーワードがランダムにドロップされ得る。キーワードドロップアウトは、トレーニング時にのみ適用され得ることに留意されたい。

図５は、本明細書で説明されるいくつかの実施形態による、推論段階中に、図２に示されるキーワードベースモデルを使用して、制御された要約を生成するための方法を示す簡略化された論理フロー図である。方法５００のプロセス５０２～５１４のうちの１つまたは複数は、少なくとも部分的に、１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに、プロセス５０２～５１４のうちの１つまたは複数を実行させ得る、非一時的な有形の機械可読媒体上に記憶された実行可能コードの形態で実装され得る。いくつかの実施形態では、方法５００は、モジュール３３０によって使用される方法に対応し得る。

ステップ５０２において、入力文書（例えば、文書２１０）が受信され得る。例えば、図３のデータインターフェース３１５において入力要約が受信され得る。

ステップ５０４において、例えば、キーワードをシーケンスラベリングすることによって、キーワードのセットが入力文書から抽出され得る。例えば、推論時のキーワード抽出は、シーケンスラベリングタスクとして定式化され得る。具体的には、ＢＥＲＴベースシーケンスタガー（例えば、２２０）は、トレーニングデータセットからのキーワードおよび文書に対してオプションでトレーニングされている可能性がある。ＢＥＲＴベースシーケンスタガー２２０は、Devlin et al., BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018（その全体が参照により本明細書に明示的に組み込まれるいる）に記載されているＢＥＲＴモデルと同様であり得る。次いで、このタガーは、テスト文書内の各トークンについて選択確率ｑ_ｊを計算し得る。トレーニング時のキーワード抽出（図４のステップ４０４～４０８で説明した）と同様に、平均トークン選択確率が最も高いｎ_ｓ個のセンテンスのセットが、入力ソース文書から選択される。これらのセンテンス中では、ｑ_ｊ＞εの単語がキーワードとして最大数ｍ_ｍａｘまで選択される。３つのハイパーパラメータｎ_ｓ、ε、ｍ_ｍａｘは、妥当性確認データセットに対する制御されていない要約化性能に基づいて選択され得る。結果は、異なる設定に対して適度にロバストである。

ステップ５０６において、例えば、図２の制御センタ２３２を介して、キーワードのセットをカスタマイズされたキーワードのセットに修正するために、生成されるべき要約の特性に関連する１つまたは複数の制御パラメータおよび／または制御トークンシーケンスのユーザ入力が受信され得る。推論時間中に、ユーザ１５０は、要約の長さおよびエンティティに対するキーワード制御を反映して、制御トークン２３２の異なる構成を提供し得る。

ステップ５０８において、受信された制御トークンシーケンスに基づいてキーワードのセットが修正される。

ステップ５１０において、１つまたは複数の制御パラメータにしたがって、カスタマイズされたキーワードのセットに基づいて、入力文書の要約を生成し得る。例えば、エンティティ制御では、関心のあるエンティティに焦点を当てた要約を生成し得る。例示的な要約２３５ａ～ｃは、それぞれの要約に直接影響を与えるキーワードとして異なる選手の名前が含まれる場合、それらの選手に焦点を当てた異なるバージョンの要約を提供する。

別の例として、ユーザは、要約の長さに関して異なる好みを有し得、これは、ユーザ指定の長さパラメータによって制御され得る。具体的には、トレーニングデータは、各バケットが同じ数の例を有するように、異なる要約長によって表される５つのバケットに分離され得る。次いで、トレーニングデータ上の各バケットについてキーワードの平均数Ｋ_ｌが計算され得る。テスト時に、ユーザ１５０は、シーケンスタガー２２０によって計算された選択確率が最も高いＫ_ｌ個のキーワードを含めるように長さパラメータｌ∈｛０，１，２，３，４｝を指定することができる。

一実施形態では、単一の統一モデルを用いて多目的テキスト生成を実行するために、プロンプト（例えば、図２の２２７）が利用される。具体的には、プロンプトは、制御トークンシーケンスの形態をとり得、そのようなトークンは、ターゲットプレフィックスとしてもキーワードとしても使用され得る。例えば、プロンプトは、科学論文の貢献を要約化するために使用することができる。ａｒＸｉｖなどの学術論文に関する既存のデータセットは、論文の要旨（abstract）を要約として収集するが、これは、多くの場合、余分な背景コンテキストを含んでおり、関連付けられた論文に関する詳細な貢献の説明を欠いている。多くの場合、読者は、その論文の新規性および価値を理解するために、貢献の明示的なリストから利益を得るであろう。これらの場合、「the main contributions of this paper are:(1)」などの制御トークンのプロンプトは、貢献に焦点を合わせた要約の生成をトリガし得る。別の例として、プロンプトは、特許文献の発明の目的を要約化するために使用されてもよい。ＢＩＧ－ＰＡＴＥＮＴなどの既存のデータセットにおける特許記事の要約は、複雑すぎることが多く、多くの場合、コアな方法の詳細までもカバーしている。しかしながら、専門家ではない読者には、技術的な詳細を無視して、発明の目的を述べた１センテンスの要約を提供することが好ましいであろう。「the purpose of the present invention is」というプロンプトを使用して、特許の目的に焦点を当てた入力特許文献の簡潔な要約をトリガし得る。別の例として、ユーザの読解力を高めるために、質問誘導要約化（question-guided summarization）が使用され得る。回答が要約に含まれることを要求する質問によって、人間による要約化が制約され得る。これは、要約化と読解力との間の重要な関係を示している。要約化モデルは、適切に誘導された場合、記事に関するいくつかの質問に直接回答し得る。これは、要約化の形態として読解力を包含する可能性を示唆している。この仮説を検証するために、制御トークンのプロンプト「Q: question [text]? A:」で、要約を生成する際の読解力挙動をトリガする。

実施例
図６は、本明細書で説明される一実施形態による、異なるユーザ制御の構成パラメータに基づいて生成された結果として得られる要約を示す定性的な例を提供する。例６０１は、エンティティ名（例えば、キーワードとしての「ISIS」、「Hasd Al-Shaabi」）、長さ、質疑応答フォーマット、および／または同様のものなどの異なる制御アスペクトに基づいて、異なるバージョンの要約に要約化されたソース文書を示す。例６０２は、貢献フォーマット、例えば「the main contribution of this paper are …」を有するプロンプトによって再要約化された参照要約を示す。例６０３は、発明の目的に対するプロンプトによって再要約化された参照要約を示す。

キーワードベースモデルの性能を示す追加の例は、以下の別個のドメインの要約化データセットに対して実行され得る：ＣＮＮ／Ｄａｉｌｙｍａｉｌ（ＣＮＮＤＭ）ニュース記事、ａｒＸｉｖ学術論文（これは、Cohan et al., A discourse-aware attention model for abstractive summarization of long documents. In Proceedings of NAACL (Short Papers), 2018に記載されている）、およびＢＩＧＰＡＴＥＮＴの特許記事。すべてのデータセットについて、ソース文書は、１０２４トークンに切り詰められ、次に、ターゲット要約は、２５６トークンに切り詰められる。キーワードベースモデルにおける条件付き分布ｐ（ｙ｜ｘ，ｚ）は、事前トレーニングされたＢＡＲＴＬＡＲＧＥモデルの微調整されたバージョンであり、これは、いくつかの要約化ベンチマークに対して同等の性能を達成する。テスト時の自動キーワードタガーは、図２に関連して説明したように微調整された事前トレーニングされたＢＥＲＴＬＡＲＧＥモデルに基づいている。要約化モデルの実装は、fairseqツールキットに基づいており、自動キーワード抽出モデルは、HuggingFace Transformersライブラリに基づいている。

評価のために、グラウンドトゥルースが利用可能なときに、ＲＯＵＧＥスコアおよび最近提案されたBERTScore（Zhang et al., BERTScore: Evaluating text generation with BERT, in Proceedings of ICLR, 2020を参照されたい）が使用される。参照要約が利用可能でない制御関連評価の場合、（１）可能であればグラウンドトゥルース要約を収集する、（２）制御信号を尊重するために要約を調べる、または（３）人間による評価に頼る。

エンティティ制御の性能をテストするために、最初に、グラウンドトゥルースターゲットから抽出されたオラクルエンティティをモデルに提供することによってユーザの好みがシミュレートされ、次いで、オラクルエンティティの効果を示すために、制御されていない設定において自動キーワードを使用したモデルと比較される。復号された要約がエンティティの変化を尊重するかどうかを調べるために、１００個の文書をサンプリングし、文書内のすべてのエンティティを繰り返し取得して、要約を生成する。次いで、成功率（Success Rate）、要求されたエンティティが実際に出力要約に現れる割合、が計算される。結果は、エンティティが先頭の３つのセンテンスからのものであるか、記事全体からのものであるかを区別して報告される。異なるエンティティ入力からの要約が文書と事実上一致するかどうかをテストするために、別の１００個の文書をサンプリングし、それぞれについて、参照に現れる１つの「重要な」エンティティをランダムにサンプリングし、参照にも先頭の３つのソースセンテンスにも現れない１つの「重要でない」エンティティをサンプリングして、要約を生成する。（記事、要約）ペアごとに、Amazon Mechanical Turkからの３つのアノテータ（annotator）が採用され、記事から要約が連想され得るかどうかに関しての二分決定が行われる。次いで、多数決が結果として採用され、事実上正しい要約の割合を報告する。ａｒＸｉｖおよびＢＩＧＰＡＴＥＮＴにおける多くの例は、識別可能なエンティティを有さないので、評価はＣＮＮＤＭに対してのみ行われる。

図７は、ＢＡＲＴと比較されたキーワードベースモデル（ＣＴＲＬｓｕｍと呼ばれる）の例示的な性能を示す。オラクルエンティティの使用は、自動キーワードを使用した場合と比較して、ＲＯＵＧＥ－２スコアを３．６ポイント押し上げるのに役立つことが観察され、これは、ＣＴＲＬｓｕｍが、所与のエンティティを利用できることを意味する。図８は、成功率および事実の正しさ（factual correctness）の評価を示す。注目すべきことに、本明細書で説明されるキーワードベースモデル（ＣＴＲＬｓｕｍ）は、ｌｅａｄ－３エンティティとｆｕｌｌ－ａｒｔｉｃｌｅエンティティの両方について、約９５％に達する高い成功率を達成する。しかしながら、他のシステムは、所与のエンティティ、特に記事の冒頭に出現しないエンティティを含めるのに苦労している。人間のアノテータからの事実の正しさのスコアは、ＣＴＲＬｓｕｍが、関心のあるエンティティが重要であるか否かにかかわらず、事実上一貫した要約を生成することができることを示唆しており、制約なしＢＡＲＴベースラインに匹敵する。

エンティティ制御と同様に、まず、ユーザの好みをシミュレートするために、参照からのオラクル長信号の効果を調べる。ＲＯＵＧＥおよびＢＥＲＴＳｃｏｒｅに加えて、次に、復号された要約と参照との間の長さ距離を測定する（Ｌｉｕら、２０１８）。具体的には、復号された要約の実際の長さバケットコードｌ_ｓｙｓの平均絶対偏差（ＭＡＤ（mean of absolute deviation））は、グランドトゥルース制御コードｌ_ｒｅｆから次式で計算される：

長さ信号の変化に伴う要約の変動を評価するために、１０００個の文書をさらにサンプリングし、各文書について５つの異なる長さの要約を復号する。次いで、ピアソン相関係数（ＰＣＣ：Pearson Correlation Coefficient）が、入力バケットコードと実際のバケットコードとの間で報告される。実験は、ＣＮＮＤＭおよびａｒＸｉｖに対して行われる。

図７において、オラクル長信号によるＣＴＲＬｓｕｍは、自動ＣＴＲＬｓｕｍベースラインに対して比較的小さい利得しか示さない。これは、オラクル長が、参照要約の生成を支援するための限られた追加情報のみを伝達することを意味する。ＬｅｎｇｔｈＣｏｄｅベースラインは、ＢＡＲＴに基づいて実行され、ここで、グラウンドトゥルース長バケットコードは、トレーニングとテスト時の両方において記事にプリペンドされる。しかしながら、ＬｅｎｇｔｈＣｏｄｅは、オラクル長信号では、ＢＡＲＴよりも一貫して改善することはできない。さらに、ＬｅｎｇｔｈＣｏｄｅ方法で微調整されたＢＡＲＴモデルは、図９に示すように、ＰＣＣが０に近い長さ信号をほとんど無視する。サマライザが強くなると、すでに良好な長さ予測器を暗黙的に学習することができ、長さコードが有用ではなくなるので、これはそれほど驚くことではない。対照的に、長さ誘導キーワード（length-guided keyword）によるＣＴＲＬｓｕｍは、制御信号と実際の出力長との間で高い正のＰＣＣを達成し、自動ベースラインと比較して長さ偏差（length deviation）ＭＡＤを低減することができる。

学術論文の貢献の要約化を評価するための既存のデータセットは存在せず、本願の評価に課題をもたらす。しかしながら、研究者は、多くの場合、導入部で論文の箇条書きによる貢献（bullet contribution）を要約化しており、このことから、そのような貢献の主張を参照要約として抽出するという着想を得ている。したがって、ａｒＸｉｖデータベース２全体は、６７，０００報の論文のうち、初投稿が２０１９３の最初の６ヶ月以内であるすべての論文をダウンロードする。導入部および箇条書き貢による献は、正規表現を用いて抽出され、該当しないものをフィルタ除去する。貢献は参照として使用され、貢献の主張を除去した後の導入部は、導入部の残りの部分から貢献を予測するために、ソース記事として使用される。この手順により１０１８個のテスト例が得られる。モデルは、ａｒＸｉｖについてトレーニングおよびテストされる。

目的の要約化セットアップのため、１センテンスの発明の目的の要約を特徴とするテストデータセットを収集するために、１０００個のテスト例がＢＩＧＰＡＴＥＮＴからサンプリングされ、それらの参照要約をAmazon Mechanical Turkからの人間のアノテータに提示する。各例について、１人のアノテータが、発明の目的を伝えるセンテンスを選択するように求められる。発明の目的を識別することができないアノテータに対してオプションも提供される。無効な例をフィルタ除去した後、７６３個の例がテストデータとして収集される。

図１１は、学術論文の貢献の要約化および特許出願の発明の目的の要約化の結果を示す。デコーダプレフィックスおよびキーワードの両方としてプロンプトテキストを使用することにより、ＣＴＲＬｓｕｍは、ほとんどの場合、ＢＡＲＴベースラインよりも性能が優れている。さらに、Ｆ１に加えてＢＥＲＴＳｃｏｒｅにおける精度（Ｐ）および再現率（Ｒ）スコアを報告する。ＢＡＲＴベースラインは、精度スコアが低い完全な要約を過剰に生成する傾向があるが、ＣＴＲＬｓｕｍは、キーワード関連のコンテンツに焦点を当てることができることが観察される。

質問誘導要約化は、ゼロショット設定での読解力ベンチマークでテストされる。具体的には、ＣＮＮＤＭ要約化モデルは、それぞれ、ドメイン内のＮｅｗｓＱＡおよびドメイン外のＳＱｕＡＤ１．１について評価される。いくつかのＮｅｗｓＱＡテスト記事がＣＮＮＤＭ要約化トレーニングデータセット内に存在する。これは、キーワードベースモデルがトレーニング中に質問も回答も決して見ないので、依然として合理的な教師なし設定であるからである。普通のＢＡＲＴモデルとの比較に加えて、ＧＰＴ２言語モデル（微調整なし）からのゼロショット性能が基準点として含まれる。１５億個のパラメータを持つ最大のＧＰＴ２モデルは、メモリ制限のために単一のＧＰＵデバイスで評価することができないので、省略される。Ｆ１スコアは、２つのベンチマークで報告される。

ＢＡＲＴは、ソースのノイズ除去されたバージョンを予測するためにノイズ除去タスクを用いて事前トレーニングされ、図１０に示されるように、ボックス外のゼロショットの読解力に対して不十分に機能する。しかしながら、興味深いことに、トレーニングデータ内の質問－回答ペアを見ることなく、要約化タスクに関して微調整されたＢＡＲＴは、Ｆ１スコアをＮｅｗｓＱＡおよびＳＱｕＡＤでそれぞれ２４．４および２５．９ポイント改善し得る。さらに、質問キーワードを備えたＣＴＲＬｓｕｍは、性能をさらに１５．６および１７．９ポイント押し上げて、ＮｅｗｓＱＡでの教師ありＭａｔｃｈＬＳＴＭスコアに近づけることができる。このような結果は、要約化が抽象読解力のための適切な転送タスクであり得ることを示唆する。

図１２は、図２に関して説明されたような自動的に抽出したキーワードを使用する、ユーザ入力なしでの制御されていない要約化性能を示す。ＣＮＮＤＭおよびａｒＸｉｖデータセットでは、ＣＴＲＬｓｕｍは、強力なＢＡＲＴおよびＰＥＧＡＳＵＳベースラインよりも大幅に優れており、ＣＮＮＤＭに対する新しい最先端の性能をもたらす。それはまた、ＲＯＵＧＥ－２スコアは劣るが、ＢＥＲＴＳｃｏｒｅに関してはＢＩＧＰＡＴＥＮＴのＢＡＲＴベースラインと同程度に機能する。しかしながら、ＢＡＲＴベースモデルとＢＩＧＰＡＴＥＮＴのＰＥＧＡＳＵＳとの間には性能に大きなギャップがある。その理由としては、異なるデータセット処理、４つの準最適な学習スケジュール、またはＢＡＲＴとＰＥＧＡＳＵＳとの間の固有の差があり得る。

制御された要約化の場合、さらなる人間の評価の結果、意図された制御信号をアノテータに通知することによって直接「制御」を評価する。実験は、エンティティおよび目的の制御について行われる。具体的には、アノテータは、（特定のエンティティまたは特許の目的に焦点を当てた要約を取得するという）意図を知らされ、次いで、アノテータは、以下の２つの次元にわたってスケール１～５でスコアを提供する：（１）Control Accuracy（ＣＡ（制御精度））：要約が意図に関して正確な主要情報を含むかどうか、および（２）Control Relevance（ＣＲ（制御適合性））：要約が制御意図全体にどれだけ関連しているか－意図に関連しない冗長な内容を含む要約はペナルティを課される。有意性検定を含む結果を図１３に示す。重要なエンティティ制御および目的制御のための制御精度は、ＢＡＲＴとＣＴＲＬｓｕｍとの間で有意な差はなく同等である（ｐ値＞０．０５）が、ＣＴＲＬｓｕｍは、所望の情報に焦点を当てることによって、全体的に有意により良好な制御適合性を示す。また、制約なしＢＡＲＴは、重要でないエンティティに関連する要約を生成することができず、したがって、両方の次元でスコアが低くなる。

制御されていない要約化の場合、Amazon Mechanical Turkからの人間のアノテータは、以下の４つの次元にわたって要約をスコア付けする（スケール１～５）：（１）Factual Consistency（ＦＡＣ（事実整合性））：要約は、ソース文書が内含することができるステートメントのみを含むべきである、（２）Relevance（ＲＥＬ（適合性））：要約は、ソース文書の重要な情報のみを含むべきである、（３）Fluency（ＦＬＵ（流暢さ））：要約中の各センテンスは流暢であるべきである、および（４）Coherence（ＣＯＨ）：要約は、十分に構造化され、十分に編成されているべきである。有意性検定を含む結果を図１４に示す。すべての次元上のすべてのシステムからの要約の品質は一般に良好であり、スコアは主に４．０よりも高い。しかしながら、ほとんどのスコアは、ＲＯＵＧＥ／ＢＥＲＴＳｃｏｒｅに関して参照要約に対するそれらの非常に異なる類似性にもかかわらず、大きなｐ値を有するＣＴＲＬｓｕｍ（自動キーワード）との有意な差を示さない（例えば、オラクルキーワードによるＣＴＲＬｓｕｍ）。これは、ＢＡＲＴのような強力な事前トレーニングされたモデルを備えた異なるシステムからの要約の品質が、専門家でないＭＴｕｒｋｅｒによって明確に区別されることが困難になったことを意味する。また、要約化に対する専門家でない人間の判断は信頼性が低く、専門家の判断との相関が乏しい可能性があることにも留意されたい。

コンピューティングデバイス２００などのコンピューティングデバイスのいくつかの例は、１つまたは複数のプロセッサ（例えば、プロセッサ２１０）によって実行されると、１つまたは複数のプロセッサに、方法４００のプロセスを実行させ得る実行可能コードを含む非一時的な有形の機械可読媒体を含み得る。方法４００のプロセスを含み得る機械可読媒体のいくつかの一般的な形態は、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、任意の他の光媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ(登録商標)－ＥＰＲＯＭ、任意の他のメモリチップもしくはカートリッジ、および／またはプロセッサもしくはコンピュータが読み取るように構成された任意の他の媒体である。

本発明の態様、実施形態、実装形態、または適用例を示す本説明および添付の図面は、限定するものと解釈されるべきではない。本説明および特許請求の範囲の趣旨および範囲から逸脱することなく、様々な機械的、組成的、構造的、電気的、および動作的な変更がなされ得る。いくつかの事例では、本開示の実施形態を不明瞭にしないために、周知の回路、構造、または技法は、詳細に示され、または説明されていない。２つ以上の図における同様の番号は、同じまたは同様の要素を表す。

この説明では、本開示と一致するいくつかの実施形態を説明する具体的な詳細が記載される。実施形態の完全な理解を与えるために、多数の具体的な詳細が記載される。しかしながら、いくつかの実施形態が、これらの具体的な詳細のうちのいくつかまたはすべてなしに実践され得ることは、当業者には明白となるであろう。本明細書で開示された特定の実施形態は、限定するものではなく、例示的なものであることが意味される。当業者は、本明細書に具体的に説明されていないが、本開示の範囲および精神内である、他の要素を認識し得る。加えて、不必要な繰り返しを回避するために、一実施形態に関連して示され、説明される１つまたは複数の特徴は、別様に具体的に説明されない限り、または１つまたは複数の特徴が実施形態を非機能的にする可能性がある場合、他の実施形態に組み込まれてもよい。

例示的な実施形態が示され、説明されたが、前述の開示では広範囲の修正、変更、および置換が企図されており、いくつかの事例では、実施形態のいくつかの特徴が、他の特徴の対応する使用なしに採用され得る。当業者は、多くの変形例、代替例、および修正例を認識するであろう。したがって、本発明の範囲は、以下の特許請求の範囲によってのみ限定されるべきであり、特許請求の範囲は、広範にかつ本明細書に開示される実施形態の範囲と一致する様式で解釈されることが適切である。

Claims

文書の制御可能なテキスト要約化の方法であって、
通信インターフェースにおいて、入力テキスト文書を受信することと、
複数の文書および複数の対応するキーワードのトレーニングデータセットによってトレーニングされた言語モデルを介して、前記入力テキスト文書から、１つまたは複数のキーワードをシーケンスラベリングすることによって、前記１つまたは複数のキーワードを抽出することと、
ユーザインターフェースを介して、制御トークンシーケンスと、生成されるべき要約の特性に関連する１つまたは複数の制御パラメータとを受信することと、
前記受信された制御トークンシーケンスに基づいて前記１つまたは複数のキーワードを修正することと、
前記言語モデルによって、前記１つまたは複数の制御パラメータにしたがって、前記修正された１つまたは複数のキーワードに基づいて前記入力テキスト文書に対する前記要約を生成することと
を含む方法。
前記要約の前記特性は、
前記入力テキスト文書で言及されたエンティティ、
前記要約の目標長さ、および
前記入力テキスト文書のタイプ
のうちのいずれかを含む、請求項１に記載の方法。
前記１つまたは複数の制御パラメータは、前記入力テキスト文書の前記タイプに対応するプロンプトを含む、請求項２に記載の方法。
前記プロンプトは、
研究論文の貢献を要約化する第１の要約プレフィックス、
特許文献の発明の目的を要約化する第２の要約プレフィックス、および
前記入力テキスト文書をガイド付き質疑応答形式で要約化する第３の要約プレフィックス
の群から選択される、請求項３に記載の方法。
前記受信された制御トークンシーケンスから、修正されたキーワードの第１のセットおよび第１の制御パラメータを生成することと、
前記言語モデルによって、前記第１の制御パラメータにしたがって、修正されたキーワードの前記第１のセットに基づいて、前記入力テキスト文書に対する前記要約の第１のバージョンを生成することと、
前記受信された制御トークンシーケンスから、修正されたキーワードの第２のセットおよび第２の制御パラメータを生成することと、
前記言語モデルによって、前記第２の制御パラメータにしたがって、前記修正されたキーワードの第２のセットに基づいて、前記入力テキスト文書に対する前記要約の第２のバージョンを生成することと
をさらに含む、請求項１に記載の方法。
前記言語モデルは、
特殊トークンで分離されたトレーニングソース文書にキーワードシーケンスをプリペンドすることと、
前記キーワードシーケンスを有する前記トレーニングソース文書を前記言語モデルに入力することと、
前記言語モデルによって、出力要約を生成することと、
前記トレーニングソース文書および前記キーワードシーケンスを条件とする出力要約の条件付き確率を最大化することによって、前記言語モデルを更新することと
によってトレーニングされる、請求項１に記載の方法。
トレーニング中に前記キーワードシーケンスからキーワードのサブセットをランダムにドロップすること
をさらに含む、請求項６に記載の方法。
文書の制御可能なテキスト要約化のシステムであって、
入力テキスト文書を受信する通信インターフェースと、
複数の文書および複数の対応するキーワードのトレーニングデータセットによってトレーニングされる言語モデルを記憶するメモリと、
１つまたは複数のハードウェアプロセッサと
を備え、前記１つまたは複数のハードウェアプロセッサは、
前記言語モデルを介して、前記入力テキスト文書から、１つまたは複数のキーワードをシーケンスラベリングすることによって、前記１つまたは複数のキーワードを抽出することと、
前記通信インターフェースを介して、制御トークンシーケンスと、生成されるべき要約の特性に関連する１つまたは複数の制御パラメータとを受信することと、
前記受信された制御トークンシーケンスに基づいて前記１つまたは複数のキーワードを修正することと、
前記言語モデルによって、前記１つまたは複数の制御パラメータにしたがって、前記修正された１つまたは複数のキーワードに基づいて前記入力テキスト文書に対する前記要約を生成することと
を行う、システム。
前記要約の前記特性は、
前記入力テキスト文書で言及されたエンティティ、
前記要約の目標長さ、および
前記入力テキスト文書のタイプ
のうちのいずれかを含む、請求項８に記載のシステム。
前記１つまたは複数の制御パラメータは、前記入力テキスト文書の前記タイプに対応するプロンプトを含む、請求項９に記載のシステム。
前記プロンプトは、
研究論文の貢献を要約化する第１の要約プレフィックス、
特許文献の発明の目的を要約化する第２の要約プレフィックス、および
前記入力テキスト文書をガイド付き質疑応答形式で要約化する第３の要約プレフィックス
の群から選択される、請求項１０に記載のシステム。
前記１つまたは複数のハードウェアプロセッサはさらに、
前記受信された制御トークンシーケンスから、修正されたキーワードの第１のセットおよび第１の制御パラメータを生成することと、
前記言語モデルによって、前記第１の制御パラメータにしたがって、修正されたキーワードの前記第１のセットに基づいて、前記入力テキスト文書に対する前記要約の第１のバージョンを生成することと、
前記受信された制御トークンシーケンスから、修正されたキーワードの第２のセットおよび第２の制御パラメータを生成することと、
前記言語モデルによって、前記第２の制御パラメータにしたがって、前記修正されたキーワードの第２のセットに基づいて、前記入力テキスト文書に対する前記要約の第２のバージョンを生成することと
を行う、請求項８に記載のシステム。
前記言語モデルは、
特殊トークンで分離されたトレーニングソース文書にキーワードシーケンスをプリペンドすることと、
前記キーワードシーケンスを有する前記トレーニングソース文書を前記言語モデルに入力することと、
前記言語モデルによって、出力要約を生成することと、
前記トレーニングソース文書および前記キーワードシーケンスを条件とする出力要約の条件付き確率を最大化することによって、前記言語モデルを更新することと
によってトレーニングされる、請求項８に記載のシステム。
前記１つまたは複数のハードウェアプロセッサはさらに、
トレーニング中に前記キーワードシーケンスからキーワードのサブセットをランダムにドロップする、
請求項１３に記載のシステム。
文書の制御可能なテキスト要約化のための複数のプロセッサ実行可能命令を記憶する非一時的プロセッサ可読媒体であって、前記命令は、
通信インターフェースにおいて、入力テキスト文書を受信することと、
複数の文書および複数の対応するキーワードのトレーニングデータセットによってトレーニングされた言語モデルを介して、前記入力テキスト文書から、１つまたは複数のキーワードをシーケンスラベリングすることによって、前記１つまたは複数のキーワードを抽出することと、
ユーザインターフェースを介して、制御トークンシーケンスと、生成されるべき要約の特性に関連する１つまたは複数の制御パラメータとを受信することと、
前記受信された制御トークンシーケンスに基づいて前記１つまたは複数のキーワードを修正することと、
前記言語モデルによって、前記１つまたは複数の制御パラメータにしたがって、前記修正された１つまたは複数のキーワードに基づいて前記入力テキスト文書に対する前記要約を生成することと
を含む動作を実行するために、１つまたは複数のプロセッサによって実行される、非一時的プロセッサ可読媒体。
前記要約の前記特性は、
前記入力テキスト文書で言及されたエンティティ、
前記要約の目標長さ、および
前記入力テキスト文書のタイプ
のうちのいずれかを含む、請求項１５に記載の非一時的プロセッサ可読媒体。
前記１つまたは複数の制御パラメータは、前記入力テキスト文書の前記タイプに対応するプロンプトを含む、請求項１６に記載の非一時的プロセッサ可読媒体。
前記プロンプトは、
研究論文の貢献を要約化する第１の要約プレフィックス、
特許文献の発明の目的を要約化する第２の要約プレフィックス、および
前記入力テキスト文書をガイド付き質疑応答形式で要約化する第３の要約プレフィックス
の群から選択される、請求項１７に記載の非一時的プロセッサ可読媒体。
前記動作は、
前記受信された制御トークンシーケンスから、修正されたキーワードの第１のセットおよび第１の制御パラメータを生成することと、
前記言語モデルによって、前記第１の制御パラメータにしたがって、修正されたキーワードの前記第１のセットに基づいて、前記入力テキスト文書に対する前記要約の第１のバージョンを生成することと、
前記受信された制御トークンシーケンスから、修正されたキーワードの第２のセットおよび第２の制御パラメータを生成することと、
前記言語モデルによって、前記第２の制御パラメータにしたがって、前記修正されたキーワードの第２のセットに基づいて、前記入力テキスト文書に対する前記要約の第２のバージョンを生成することと
をさらに含む、請求項１６に記載の非一時的プロセッサ可読媒体。
前記言語モデルは、
特殊トークンで分離されたトレーニングソース文書にキーワードシーケンスをプリペンドすることと、
トレーニング中に前記キーワードシーケンスからキーワードのサブセットをランダムにドロップすることと、
前記キーワードシーケンスを有する前記トレーニングソース文書を前記言語モデルに入力することと、
前記言語モデルによって、出力要約を生成することと、
前記トレーニングソース文書および前記キーワードシーケンスを条件とする出力要約の条件付き確率を最大化することによって、前記言語モデルを更新することと
によってトレーニングされる、請求項１５に記載の非一時的プロセッサ可読媒体。