JP2023536103A - 制御可能なテキスト要約化のためのシステムおよび方法 - Google Patents
制御可能なテキスト要約化のためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2023536103A JP2023536103A JP2023505847A JP2023505847A JP2023536103A JP 2023536103 A JP2023536103 A JP 2023536103A JP 2023505847 A JP2023505847 A JP 2023505847A JP 2023505847 A JP2023505847 A JP 2023505847A JP 2023536103 A JP2023536103 A JP 2023536103A
- Authority
- JP
- Japan
- Prior art keywords
- keywords
- input text
- language model
- text document
- control parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 41
- 238000012549 training Methods 0.000 claims description 43
- 238000004891 communication Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 5
- 230000001052 transient effect Effects 0.000 claims 1
- 238000012360 testing method Methods 0.000 abstract description 33
- 238000003062 neural network model Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 5
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 5
- 241001596784 Pegasus Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000001143 conditioned effect Effects 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 2
- 101000779415 Homo sapiens Alanine aminotransferase 2 Proteins 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- ABEXEQSGABRUHS-UHFFFAOYSA-N 16-methylheptadecyl 16-methylheptadecanoate Chemical compound CC(C)CCCCCCCCCCCCCCCOC(=O)CCCCCCCCCCCCCCC(C)C ABEXEQSGABRUHS-UHFFFAOYSA-N 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 235000000332 black box Nutrition 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000005417 image-selected in vivo spectroscopy Methods 0.000 description 1
- 238000012739 integrated shape imaging system Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0483—Interaction with page-structured environments, e.g. book metaphor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
[相互参照]
本開示は、2020年12月17日に出願された米国特許出願第17/125,468号および2020年8月28日に出願された米国仮出願第63/071,571号の優先権を主張し、これらは、参照によりその全体が本明細書に明示的に組み込まれる。
本開示は、2020年12月17日に出願された米国特許出願第17/125,468号および2020年8月28日に出願された米国仮出願第63/071,571号の優先権を主張し、これらは、参照によりその全体が本明細書に明示的に組み込まれる。
[技術分野]
本開示は、一般に、機械学習モデルおよびニューラルネットワークに関し、より具体的には、制御可能なテキスト要約化フレームワークに関する。
本開示は、一般に、機械学習モデルおよびニューラルネットワークに関し、より具体的には、制御可能なテキスト要約化フレームワークに関する。
テキスト要約化は、文書を文書の「要約」として短い段落またはセンテンスに圧縮するが、要約は、文書からの主要情報を保持することが期待される。既存の要約化システムの中には、文書から重要なセンテンスを抽出して要約を作成するものもあれば、独自に選択したセンテンスをまとめて一から要約を作成するものもある。これらの要約化システムは、入力文書のみに依存して要約を生成するので、入力文書に対して1つのバージョンの要約となることが多い。この普遍的なバージョンの要約では、時々、要約を要求するユーザの異なる関心を捉えることができない場合がある。
図および添付書類において、同じ名称を有する要素は、同じまたは同様の機能を有する。
既存の要約化システムは、多くの場合、入力文書のみに依存して要約を生成するので、入力文書に対して1つのバージョンの要約となることが多い。この普遍的なバージョンの要約では、時々、要約を要求するユーザの異なる関心を捉えることができない場合がある。例えば、文書がスポーツニュースに関するニュース記事を含む場合、ユーザは、特定の選手に焦点を当てた要約、またはユーザの関心もしくは利用可能な時間を考慮して異なる長さの要約を望み得る。異なるバージョンの要約に対するユーザの好みは、トピックまたは特定のセクション(学術論文または書籍を要約化する場合)などの他の制御要因にも拡張され得る。
ユーザの好みを反映する文書のカスタマイズされた要約を生成する必要性を考慮して、本明細書で説明される実施形態は、要約を手動で編集または書くことなく、例えば、ユーザが、実際に、様々な粒度下で特定の情報を追加または削除することなく、ユーザが要約の生成を制御することを可能にする柔軟で制御可能な要約化システムを提供する。具体的には、要約化システムは、キーワード操作を通じて制御可能な要約化を実行する。ニューラルネットワークモデルは、キーワードとソース文書の両方を条件とする要約を生成するように学習され、その結果、テスト時に、ユーザは、キーワードインターフェースを通してニューラルネットワークモデルと対話することができ、潜在的にマルチファクタ制御を可能にする。
例えば、制御可能な要約化システムは、ユーザがモデルから要約を制御および操作することを可能にする。ユーザは、ユーザインターフェースを介して、キーワードまたは記述的プロンプト(prompt)のセットの形態で制御トークンを入力し得、それは、ソース記事のユーザの好みを反映するカスタマイズされた要約を生成するために使用され得る。トレーニング時に、モデルは、ソース文書と、外部ガイダンスとして機能するキーワードとの両方を条件とする要約を予測するように学習する。推論中、復号を制約するためのターゲットプレフィックスであるキーワードおよび(例えば、ユーザによって入力された)オプションのプロンプトが、要約生成においてユーザの好みを伝えるための制御トークンとして組み合わされる。
一実施形態では、キーワードおよびプロンプトのユーザは、相補的であり得る。例えば、ユーザは、エンティティ名をキーワードとして入力または選択してもよいし、それぞれエンティティおよび長さを制御するためにキーワードの数を変更してもよい。モデルは、要約のトレーニングから識別することができる追加の入力としてキーワードのみを使用してトレーニングされ得る。このプロセスは、余分な人間のアノテーションも事前定義された制御アスペクト(control aspect)もトレーニングに必要としないが、広範囲のテキスト操作を達成するためにかなり柔軟である。対照的に、ほとんどの既存の要約化システムは、ユーザ入力が要約化プロセスを制御することを可能にしないか、または事前定義された「制御コード」を必要とするかのいずれかであり(Fan et al., Controllable abstractive summarization, in Proceedings of the 2nd Workshop on Neural Machine Translation and Generation, 2018; Liu et al., Controlling length in abstractive summarization using a convolutional neural network, in Proceedings of EMNLP, 2018; Keskar et al., Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858, 2019を参照、これらはすべて、参照によりその全体が本明細書に明示的に組み込まれる)、これは、システムが、トレーニングのためにアノテーションを収集することを必要とし、テスト時に異なるタイプの記事または異なるタイプの制御コマンドなどの未知の制御アスペクトに一般化することができない。
本明細書で使用される場合、「プロンプト」という用語は、要約化システムの復号を制約するためにターゲットプレフィックスとして使用される事前定義されたテキストシーケンスを指すために使用される。例えば、プロンプト「the main contributions of this paper are:(1)」を使用して、学術論文の貢献のリストを要約化するための復号を制約し得る。
本明細書で使用される場合、「ネットワーク」という用語は、任意の人工知能ネットワークもしくはシステム、ニューラルネットワークもしくはシステム、および/またはその上にもしくはそれとともに実装される任意のトレーニングもしくは学習モデルを含む、任意のハードウェアまたはソフトウェアベースフレームワークを含み得る。
本明細書で使用される場合、「モジュール」という用語は、1つまたは複数の機能を実行するハードウェアまたはソフトウェアベースフレームワークを備え得る。いくつかの実施形態では、モジュールは、1つまたは複数のニューラルネットワーク上に実装され得る。
制御可能な要約化の概要
図1Aは、本明細書で説明される実施形態による、要約化システムの例示的なニューラルネットワークモデル図100aを示すブロック図を示す。従来、制約なしニューラル要約化方法は、条件付き分布p(y|x)を学習するようにトレーニングされ、ここで、xおよびyは、それぞれ、記事および要約などのソース文書を表す。生成された要約は、人間の関与なく、文書xのみに依存する。出力要約を制御するために、キーワードzのような追加の制御トークンを使用して、ユーザの好みを表し得る。したがって、図100aは、トレーニング段階において、制御可能な要約化のためのニューラルネットワークモデルが確率p(y|x,z)をモデル化するように学習されることを示し、ここで、xは、ソース文書記事110を示し、yは、生成された要約130を示し、zは、記事110から抽出されたキーワード120を示す。したがって、確率p(y|x,z)は、ソース文書110とキーワード120の両方を条件とする要約分布を示す。
図1Aは、本明細書で説明される実施形態による、要約化システムの例示的なニューラルネットワークモデル図100aを示すブロック図を示す。従来、制約なしニューラル要約化方法は、条件付き分布p(y|x)を学習するようにトレーニングされ、ここで、xおよびyは、それぞれ、記事および要約などのソース文書を表す。生成された要約は、人間の関与なく、文書xのみに依存する。出力要約を制御するために、キーワードzのような追加の制御トークンを使用して、ユーザの好みを表し得る。したがって、図100aは、トレーニング段階において、制御可能な要約化のためのニューラルネットワークモデルが確率p(y|x,z)をモデル化するように学習されることを示し、ここで、xは、ソース文書記事110を示し、yは、生成された要約130を示し、zは、記事110から抽出されたキーワード120を示す。したがって、確率p(y|x,z)は、ソース文書110とキーワード120の両方を条件とする要約分布を示す。
図1Bは、本明細書で説明される実施形態による、テスト時における要約化システムのための制御ワークフローを示すブロック図100bを示す。図100bは、推論段階において、キーワード操作メカニズムを使用して、ユーザと、「制御センタ」140と呼ばれるキーワードインターフェースとをブリッジすることを示す。具体的には、キーワード120aは、ソース文書、例えば記事110から自動的に抽出され、制御センタ140のユーザインターフェースにおいてユーザ150に(オプションで)提示され得る。次いで、ユーザ150は、制御トークンzを挿入するために制御センタ140を通して自動キーワード120aと対話し得る。
一実施形態では、制御トークンzは、トレーニングおよび推論時における追加入力としてキーワードを含み得る。制御トークンは、オプションで、復号プロセスをさらに制約するために、テスト時におけるプロンプトを含んでもよい。制御トークンz(キーワード、プロンプト、または両方の組合せの形態の)は、ユーザと、他のブラックボックスニューラルモデルとの間のインターフェースとして機能し得、ユーザが自動要約化を明示的に制御するための柔軟な方法を提供し得る。
例えば、ユーザ150は、要約の目標長さ(単語制限)を構成し、より短い要約を生成するためにいくつかの自動キーワードを除去するように制御センタ140に促し得る。あるいは、制御センタ140は、ユーザ150が特定のエンティティ名に関心があることを示す場合、特定のエンティティ関連のキーワードのみを保持することを選択し得る。加えて、ユーザ150は、カスタマイズされたキーワードを編集することもでき、これにより、ユーザが要約を手動で直接編集することなく、より柔軟なカスタマイズされた要約化が可能になる。
図2は、本明細書で説明される実施形態による、制御可能な要約化キーワードベースモデル230の推論段階を示す例示的な図を示す。図2は、NBAバスケットボールのニュース記事210を示し、参照要約(reference summary)215には、いくつかの試合結果が記載されている。しかしながら、レブロン・ジェームズまたはステフィン・カリーなど、これらのバスケットボールチームの特定のスター選手のファンは、彼らがプレーした試合にのみに関心があり、その選手のスコアも知りたいと思う可能性がある。したがって、ユーザ150は、キーワードベースモデル230における要約生成を制御し得る制御トークン232を通して、そのようなユーザの好みを提供し得る。
具体的には、トレーニング時に、キーワードベースモデルは、ソース文書と、外部ガイダンスとして機能するキーワードとの両方を条件とする要約を予測するように学習し得る。例えば、グラウンドトゥルース要約(ground-truth summary)を使用して、ソース文書内のキーワードを識別し得る。この例では、参照要約215がトレーニングのために使用され得る。別の例では、「ドウェイン・ウェイド」、「ジェームズ」、または「ステフィン・カリー」などのユーザの関心のある選手の名前についてのユーザの好みに合わせてカスタマイズされたグラウンドトゥルース要約が、ソース文書210とともにトレーニングのために使用され得る。
推論中に、復号を制約するためのターゲットプレフィックスであるキーワードおよびオプションのプロンプトを制御トークン232として組み合わせて、ユーザの好みを伝達する。具体的には、キーワードは、要約の複数のアスペクトを制御するための汎用インターフェースを提供し、これにより、ユーザは、オプションで、自動的に抽出されたキーワード、ユーザ提供のキーワード、または両方の組合せに依拠することができる。この方法により、テスト時のユーザ制御と、事前トレーニングを含むトレーニングプロセスとが明確に分離される。その結果、キーワードベースモデル230は、モデルパラメータを変更することなく、新しい使用事例に適応することができる。例えば、キーワードベースモデル230が、トレーニングの際、エンティティまたは長さを制御することに特に焦点を当てるようにトレーニングされない場合でも、当てはまる。
例えば、キーワード225は、トレーニングおよびテスト中にキーワードベースモデル230に入力され得、プロンプト227は、テスト時にオプションで使用される。破線は、制御トークン232がソース記事210、ユーザ150、またはその両方から来る可能性があるオプションの経路を表す。次いで、キーワードベースモデル230は、推論時間中の異なるキーワード225またはプロンプト227に応じて、異なるバージョンの要約235a~cを生成し得る。
コンピュータ環境
図3は、いくつかの実施形態による、要約化システムを実装するためのコンピューティングデバイスの簡略図である。図3に示されるように、コンピューティングデバイス300は、メモリ320に結合されたプロセッサ310を含む。コンピューティングデバイス300の動作は、プロセッサ310によって制御される。また、コンピューティングデバイス300は、1つのプロセッサ310のみとともに示されているが、プロセッサ310は、コンピューティングデバイス300内の1つまたは複数の中央処理装置、マルチコアプロセッサ、マイクロプロセッサ、マイクロコントローラ、デジタルシグナルプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、グラフィックス処理ユニット(GPU)などを表し得ることが理解される。コンピューティングデバイス300は、スタンドアロンサブシステムとして、コンピューティングデバイスに追加されたボードとして、および/または仮想マシンとして実装され得る。
図3は、いくつかの実施形態による、要約化システムを実装するためのコンピューティングデバイスの簡略図である。図3に示されるように、コンピューティングデバイス300は、メモリ320に結合されたプロセッサ310を含む。コンピューティングデバイス300の動作は、プロセッサ310によって制御される。また、コンピューティングデバイス300は、1つのプロセッサ310のみとともに示されているが、プロセッサ310は、コンピューティングデバイス300内の1つまたは複数の中央処理装置、マルチコアプロセッサ、マイクロプロセッサ、マイクロコントローラ、デジタルシグナルプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、グラフィックス処理ユニット(GPU)などを表し得ることが理解される。コンピューティングデバイス300は、スタンドアロンサブシステムとして、コンピューティングデバイスに追加されたボードとして、および/または仮想マシンとして実装され得る。
メモリ320は、コンピューティングデバイス300によって実行されるソフトウェア、および/またはコンピューティングデバイス300の動作中に使用される1つまたは複数のデータ構造を記憶するために使用され得る。メモリ320は、1つまたは複数のタイプの機械可読媒体を含み得る。機械可読媒体のいくつかの一般的な形態には、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、RAM、PROM、EPROM、FLASH(登録商標)-EPROM、任意の他のメモリチップもしくはカートリッジ、および/またはプロセッサもしくはコンピュータが読み取るように適合された任意の他の媒体が含まれ得る。
プロセッサ310および/またはメモリ320は、任意の適切な物理的配置で配置され得る。いくつかの実施形態では、プロセッサ310および/またはメモリ320は、同じボード上、同じパッケージ内(例えば、システムインパッケージ)、同じチップ上(例えば、システムオンチップ)などに実装され得る。いくつかの実施形態では、プロセッサ310および/またはメモリ320は、分散、仮想化、および/またはコンテナ化されたコンピューティングリソースを含み得る。そのような実施形態と一致して、プロセッサ310および/またはメモリ320は、1つまたは複数のデータセンタおよび/またはクラウドコンピューティング施設に配置され得る。
いくつかの例では、メモリ320は、1つまたは複数のプロセッサ(例えば、プロセッサ310)によって実行されると、1つまたは複数のプロセッサに、本明細書でさらに詳細に説明される方法を実行させ得る実行可能コードを含む非一時的な有形の機械可読媒体を含み得る。例えば、示されるように、メモリ320は、システムおよびモデルを実装および/もしくはエミュレートするために、ならびに/または本明細書でさらに説明される方法のうちのいずれかを実装するために使用され得る、制御要約化モジュール330のための命令を含む。いくつかの例では、制御可能な要約化モジュール330は、入力340、例えばソース文書を受信し得る。データインターフェース315は、ユーザが入力した入力を受信するユーザインターフェース、またはデータベースから文書を受信または取り出し得る通信インターフェースのいずれかであり得る。制御可能な要約化モジュール330は、出力350、例えば要約を生成し得る。
いくつかの実施形態では、制御可能な要約化モジュール330は、キーワードベースモジュール331と、制御センタ332とを含む。例えば、キーワードベースモデル331は、図2のモデル230と同様であり得、これは、トレーニング時およびテスト時に異なるキーワード抽出メカニズムを採用し得る。一実装形態では、制御センタ332は、データインターフェース315と通信し、データインターフェース315から取得されたユーザの好みに基づいて、自動キーワードから、カスタマイズされたキーワードを選択するためのフィルタとして機能し得る。
いくつかの例では、制御可能な要約化モジュール330およびサブモジュール331~232は、ハードウェア、ソフトウェア、および/またはハードウェアとソフトウェアの組合せを使用して実装され得る。
制御可能な要約化ワークフロー
図4は、本明細書で説明されるいくつかの実施形態による、図2に示されるキーワードベース要約化モデルをトレーニングするための方法を示す簡略化された論理フロー図である。方法400のプロセス402~412のうちの1つまたは複数は、少なくとも部分的に、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、プロセス402~412のうちの1つまたは複数を実行させ得る、非一時的な有形の機械可読媒体上に記憶された実行可能コードの形態で実装され得る。いくつかの実施形態では、方法400は、モジュール330によって使用される方法に対応し得る。
図4は、本明細書で説明されるいくつかの実施形態による、図2に示されるキーワードベース要約化モデルをトレーニングするための方法を示す簡略化された論理フロー図である。方法400のプロセス402~412のうちの1つまたは複数は、少なくとも部分的に、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、プロセス402~412のうちの1つまたは複数を実行させ得る、非一時的な有形の機械可読媒体上に記憶された実行可能コードの形態で実装され得る。いくつかの実施形態では、方法400は、モジュール330によって使用される方法に対応し得る。
ステップ402において、トレーニングデータセットからの入力文書(例えば、210)およびグラウンドトゥルース要約(例えば、215)が、例えば、データインターフェース315を介して受信され得る。
ステップ404において、参照要約215とのROUGEスコアを最大化するセンテンスが、文書210から貪欲に選択され得る。ROUGEスコアは、全体が参照により本明細書に明示的に組み込まれるいる(Lin,2004)に定義されているであろう。このステップで、キーワードを、重要なセンテンスに含まれているものに制約する。
ステップ406において、抽出されたセンテンスの中で、グラウンドトゥルース要約内のサブシーケンスと一致したすべての最長サブシーケンスが識別される。このマッチングステップは、Gehrmann et al., Bottom-up abstractive summarization, in Proceedings of EMNLP, 2018(その全体が参照により本明細書に明示的に組み込まれるいる)に記載されている複写単語認識方法と同様であり得る。
ステップ408において、重複単語およびストップワードがセンテンスから除去され、残りのトークンがキーワードとして保持される。したがって、ほんの少数の特徴語(salient word)のみを出力する他の既存のキーワード抽出方法と比較して、キーワード抽出は、要約に含まれているほとんどの内容語(content word)を保持する。これは、入力(例えば、ソース記事210)における所与のキーワードの存在とターゲット(例えば、グラウンドトゥルース要約)における所与のキーワードの存在との間に信頼できる相関を構築することによって、所与のキーワードへの依存を促すものである。そして、ユーザが提供したキーワードがテスト時にモデルによって無視されないことを保証する。
次いで、ステップ410において、生成されたキーワードシーケンスは、特殊トークンで分離されてソース文書にプリペンドされ、要約化モデルに供給される。一実施形態では、キーワードシーケンスは、ソース文書内にあったとおりにキーワードの順序を維持する。別の実施形態では、キーワードシーケンスは、この順序付けがソース文書とターゲット要約とで頻繁に異なり得るので、異なる順序のキーワードを採用してもよい。キーワードはまた、特殊トークン(「|」)を用いて異なるソースセンテンスから分離され得る。例えば、ユーザが自分のキーワードを提案するときなど、センテンスの境界が未知であるアプリケーションでは、「|」トークンを無視することができる。
ステップ412において、キーワードベースモデルは、入力文書xおよびキーワードzを条件とする要約の確率分布p(y|x,z)を生成する。次いで、要約化モデルは、エンドツーエンド方式でp(y|x,z)を最大化するようにトレーニングされる。例えば、要約化モデルから生成された要約の条件付き確率分布p(y|x,z)をグラウンドトゥルース要約と比較して、逆伝播を介して要約化モデルを更新するために使用され得るクロスエントロピー損失を計算する。
一実施形態では、ステップ404~408で説明したキーワード抽出ストラテジは、ソース文書に含まれている要約からのほとんどの単語を保持し得る。正則化がなければ、そのようなキーワードへの依存性は十分に強いので、キーワードベース要約化モデル230は、要約内に新規の単語をめったに生成しない可能性がある。これを改善するために、キーワードベース要約化モデル230が、キーワードシーケンス内に存在しないソース文書からの重要な情報は引き継ぎながらも、モデルの入力の一部であるキーワードシーケンス内に存在するキーワードに依存することを学習し得るように、トレーニング時にキーワードがランダムにドロップされ得る。キーワードドロップアウトは、トレーニング時にのみ適用され得ることに留意されたい。
図5は、本明細書で説明されるいくつかの実施形態による、推論段階中に、図2に示されるキーワードベースモデルを使用して、制御された要約を生成するための方法を示す簡略化された論理フロー図である。方法500のプロセス502~514のうちの1つまたは複数は、少なくとも部分的に、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに、プロセス502~514のうちの1つまたは複数を実行させ得る、非一時的な有形の機械可読媒体上に記憶された実行可能コードの形態で実装され得る。いくつかの実施形態では、方法500は、モジュール330によって使用される方法に対応し得る。
ステップ502において、入力文書(例えば、文書210)が受信され得る。例えば、図3のデータインターフェース315において入力要約が受信され得る。
ステップ504において、例えば、キーワードをシーケンスラベリングすることによって、キーワードのセットが入力文書から抽出され得る。例えば、推論時のキーワード抽出は、シーケンスラベリングタスクとして定式化され得る。具体的には、BERTベースシーケンスタガー(例えば、220)は、トレーニングデータセットからのキーワードおよび文書に対してオプションでトレーニングされている可能性がある。BERTベースシーケンスタガー220は、Devlin et al., BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018(その全体が参照により本明細書に明示的に組み込まれるいる)に記載されているBERTモデルと同様であり得る。次いで、このタガーは、テスト文書内の各トークンについて選択確率qjを計算し得る。トレーニング時のキーワード抽出(図4のステップ404~408で説明した)と同様に、平均トークン選択確率が最も高いns個のセンテンスのセットが、入力ソース文書から選択される。これらのセンテンス中では、qj>εの単語がキーワードとして最大数mmaxまで選択される。3つのハイパーパラメータns、ε、mmaxは、妥当性確認データセットに対する制御されていない要約化性能に基づいて選択され得る。結果は、異なる設定に対して適度にロバストである。
ステップ506において、例えば、図2の制御センタ232を介して、キーワードのセットをカスタマイズされたキーワードのセットに修正するために、生成されるべき要約の特性に関連する1つまたは複数の制御パラメータおよび/または制御トークンシーケンスのユーザ入力が受信され得る。推論時間中に、ユーザ150は、要約の長さおよびエンティティに対するキーワード制御を反映して、制御トークン232の異なる構成を提供し得る。
ステップ508において、受信された制御トークンシーケンスに基づいてキーワードのセットが修正される。
ステップ510において、1つまたは複数の制御パラメータにしたがって、カスタマイズされたキーワードのセットに基づいて、入力文書の要約を生成し得る。例えば、エンティティ制御では、関心のあるエンティティに焦点を当てた要約を生成し得る。例示的な要約235a~cは、それぞれの要約に直接影響を与えるキーワードとして異なる選手の名前が含まれる場合、それらの選手に焦点を当てた異なるバージョンの要約を提供する。
別の例として、ユーザは、要約の長さに関して異なる好みを有し得、これは、ユーザ指定の長さパラメータによって制御され得る。具体的には、トレーニングデータは、各バケットが同じ数の例を有するように、異なる要約長によって表される5つのバケットに分離され得る。次いで、トレーニングデータ上の各バケットについてキーワードの平均数Klが計算され得る。テスト時に、ユーザ150は、シーケンスタガー220によって計算された選択確率が最も高いKl個のキーワードを含めるように長さパラメータl∈{0,1,2,3,4}を指定することができる。
一実施形態では、単一の統一モデルを用いて多目的テキスト生成を実行するために、プロンプト(例えば、図2の227)が利用される。具体的には、プロンプトは、制御トークンシーケンスの形態をとり得、そのようなトークンは、ターゲットプレフィックスとしてもキーワードとしても使用され得る。例えば、プロンプトは、科学論文の貢献を要約化するために使用することができる。arXivなどの学術論文に関する既存のデータセットは、論文の要旨(abstract)を要約として収集するが、これは、多くの場合、余分な背景コンテキストを含んでおり、関連付けられた論文に関する詳細な貢献の説明を欠いている。多くの場合、読者は、その論文の新規性および価値を理解するために、貢献の明示的なリストから利益を得るであろう。これらの場合、「the main contributions of this paper are:(1)」などの制御トークンのプロンプトは、貢献に焦点を合わせた要約の生成をトリガし得る。別の例として、プロンプトは、特許文献の発明の目的を要約化するために使用されてもよい。BIG-PATENTなどの既存のデータセットにおける特許記事の要約は、複雑すぎることが多く、多くの場合、コアな方法の詳細までもカバーしている。しかしながら、専門家ではない読者には、技術的な詳細を無視して、発明の目的を述べた1センテンスの要約を提供することが好ましいであろう。「the purpose of the present invention is」というプロンプトを使用して、特許の目的に焦点を当てた入力特許文献の簡潔な要約をトリガし得る。別の例として、ユーザの読解力を高めるために、質問誘導要約化(question-guided summarization)が使用され得る。回答が要約に含まれることを要求する質問によって、人間による要約化が制約され得る。これは、要約化と読解力との間の重要な関係を示している。要約化モデルは、適切に誘導された場合、記事に関するいくつかの質問に直接回答し得る。これは、要約化の形態として読解力を包含する可能性を示唆している。この仮説を検証するために、制御トークンのプロンプト「Q: question [text]? A:」で、要約を生成する際の読解力挙動をトリガする。
実施例
図6は、本明細書で説明される一実施形態による、異なるユーザ制御の構成パラメータに基づいて生成された結果として得られる要約を示す定性的な例を提供する。例601は、エンティティ名(例えば、キーワードとしての「ISIS」、「Hasd Al-Shaabi」)、長さ、質疑応答フォーマット、および/または同様のものなどの異なる制御アスペクトに基づいて、異なるバージョンの要約に要約化されたソース文書を示す。例602は、貢献フォーマット、例えば「the main contribution of this paper are …」を有するプロンプトによって再要約化された参照要約を示す。例603は、発明の目的に対するプロンプトによって再要約化された参照要約を示す。
図6は、本明細書で説明される一実施形態による、異なるユーザ制御の構成パラメータに基づいて生成された結果として得られる要約を示す定性的な例を提供する。例601は、エンティティ名(例えば、キーワードとしての「ISIS」、「Hasd Al-Shaabi」)、長さ、質疑応答フォーマット、および/または同様のものなどの異なる制御アスペクトに基づいて、異なるバージョンの要約に要約化されたソース文書を示す。例602は、貢献フォーマット、例えば「the main contribution of this paper are …」を有するプロンプトによって再要約化された参照要約を示す。例603は、発明の目的に対するプロンプトによって再要約化された参照要約を示す。
キーワードベースモデルの性能を示す追加の例は、以下の別個のドメインの要約化データセットに対して実行され得る:CNN/Dailymail(CNNDM)ニュース記事、arXiv学術論文(これは、Cohan et al., A discourse-aware attention model for abstractive summarization of long documents. In Proceedings of NAACL (Short Papers), 2018に記載されている)、およびBIGPATENTの特許記事。すべてのデータセットについて、ソース文書は、1024トークンに切り詰められ、次に、ターゲット要約は、256トークンに切り詰められる。キーワードベースモデルにおける条件付き分布p(y|x,z)は、事前トレーニングされたBARTLARGEモデルの微調整されたバージョンであり、これは、いくつかの要約化ベンチマークに対して同等の性能を達成する。テスト時の自動キーワードタガーは、図2に関連して説明したように微調整された事前トレーニングされたBERTLARGEモデルに基づいている。要約化モデルの実装は、fairseqツールキットに基づいており、自動キーワード抽出モデルは、HuggingFace Transformersライブラリに基づいている。
評価のために、グラウンドトゥルースが利用可能なときに、ROUGEスコアおよび最近提案されたBERTScore(Zhang et al., BERTScore: Evaluating text generation with BERT, in Proceedings of ICLR, 2020を参照されたい)が使用される。参照要約が利用可能でない制御関連評価の場合、(1)可能であればグラウンドトゥルース要約を収集する、(2)制御信号を尊重するために要約を調べる、または(3)人間による評価に頼る。
エンティティ制御の性能をテストするために、最初に、グラウンドトゥルースターゲットから抽出されたオラクルエンティティをモデルに提供することによってユーザの好みがシミュレートされ、次いで、オラクルエンティティの効果を示すために、制御されていない設定において自動キーワードを使用したモデルと比較される。復号された要約がエンティティの変化を尊重するかどうかを調べるために、100個の文書をサンプリングし、文書内のすべてのエンティティを繰り返し取得して、要約を生成する。次いで、成功率(Success Rate)、要求されたエンティティが実際に出力要約に現れる割合、が計算される。結果は、エンティティが先頭の3つのセンテンスからのものであるか、記事全体からのものであるかを区別して報告される。異なるエンティティ入力からの要約が文書と事実上一致するかどうかをテストするために、別の100個の文書をサンプリングし、それぞれについて、参照に現れる1つの「重要な」エンティティをランダムにサンプリングし、参照にも先頭の3つのソースセンテンスにも現れない1つの「重要でない」エンティティをサンプリングして、要約を生成する。(記事、要約)ペアごとに、Amazon Mechanical Turkからの3つのアノテータ(annotator)が採用され、記事から要約が連想され得るかどうかに関しての二分決定が行われる。次いで、多数決が結果として採用され、事実上正しい要約の割合を報告する。arXivおよびBIGPATENTにおける多くの例は、識別可能なエンティティを有さないので、評価はCNNDMに対してのみ行われる。
図7は、BARTと比較されたキーワードベースモデル(CTRLsumと呼ばれる)の例示的な性能を示す。オラクルエンティティの使用は、自動キーワードを使用した場合と比較して、ROUGE-2スコアを3.6ポイント押し上げるのに役立つことが観察され、これは、CTRLsumが、所与のエンティティを利用できることを意味する。図8は、成功率および事実の正しさ(factual correctness)の評価を示す。注目すべきことに、本明細書で説明されるキーワードベースモデル(CTRLsum)は、lead-3エンティティとfull-articleエンティティの両方について、約95%に達する高い成功率を達成する。しかしながら、他のシステムは、所与のエンティティ、特に記事の冒頭に出現しないエンティティを含めるのに苦労している。人間のアノテータからの事実の正しさのスコアは、CTRLsumが、関心のあるエンティティが重要であるか否かにかかわらず、事実上一貫した要約を生成することができることを示唆しており、制約なしBARTベースラインに匹敵する。
エンティティ制御と同様に、まず、ユーザの好みをシミュレートするために、参照からのオラクル長信号の効果を調べる。ROUGEおよびBERTScoreに加えて、次に、復号された要約と参照との間の長さ距離を測定する(Liuら、2018)。具体的には、復号された要約の実際の長さバケットコードlsysの平均絶対偏差(MAD(mean of absolute deviation))は、グランドトゥルース制御コードlrefから次式で計算される:
長さ信号の変化に伴う要約の変動を評価するために、1000個の文書をさらにサンプリングし、各文書について5つの異なる長さの要約を復号する。次いで、ピアソン相関係数(PCC:Pearson Correlation Coefficient)が、入力バケットコードと実際のバケットコードとの間で報告される。実験は、CNNDMおよびarXivに対して行われる。
図7において、オラクル長信号によるCTRLsumは、自動CTRLsumベースラインに対して比較的小さい利得しか示さない。これは、オラクル長が、参照要約の生成を支援するための限られた追加情報のみを伝達することを意味する。LengthCodeベースラインは、BARTに基づいて実行され、ここで、グラウンドトゥルース長バケットコードは、トレーニングとテスト時の両方において記事にプリペンドされる。しかしながら、LengthCodeは、オラクル長信号では、BARTよりも一貫して改善することはできない。さらに、LengthCode方法で微調整されたBARTモデルは、図9に示すように、PCCが0に近い長さ信号をほとんど無視する。サマライザが強くなると、すでに良好な長さ予測器を暗黙的に学習することができ、長さコードが有用ではなくなるので、これはそれほど驚くことではない。対照的に、長さ誘導キーワード(length-guided keyword)によるCTRLsumは、制御信号と実際の出力長との間で高い正のPCCを達成し、自動ベースラインと比較して長さ偏差(length deviation)MADを低減することができる。
学術論文の貢献の要約化を評価するための既存のデータセットは存在せず、本願の評価に課題をもたらす。しかしながら、研究者は、多くの場合、導入部で論文の箇条書きによる貢献(bullet contribution)を要約化しており、このことから、そのような貢献の主張を参照要約として抽出するという着想を得ている。したがって、arXivデータベース2全体は、67,000報の論文のうち、初投稿が20193の最初の6ヶ月以内であるすべての論文をダウンロードする。導入部および箇条書き貢による献は、正規表現を用いて抽出され、該当しないものをフィルタ除去する。貢献は参照として使用され、貢献の主張を除去した後の導入部は、導入部の残りの部分から貢献を予測するために、ソース記事として使用される。この手順により1018個のテスト例が得られる。モデルは、arXivについてトレーニングおよびテストされる。
目的の要約化セットアップのため、1センテンスの発明の目的の要約を特徴とするテストデータセットを収集するために、1000個のテスト例がBIGPATENTからサンプリングされ、それらの参照要約をAmazon Mechanical Turkからの人間のアノテータに提示する。各例について、1人のアノテータが、発明の目的を伝えるセンテンスを選択するように求められる。発明の目的を識別することができないアノテータに対してオプションも提供される。無効な例をフィルタ除去した後、763個の例がテストデータとして収集される。
図11は、学術論文の貢献の要約化および特許出願の発明の目的の要約化の結果を示す。デコーダプレフィックスおよびキーワードの両方としてプロンプトテキストを使用することにより、CTRLsumは、ほとんどの場合、BARTベースラインよりも性能が優れている。さらに、F1に加えてBERTScoreにおける精度(P)および再現率(R)スコアを報告する。BARTベースラインは、精度スコアが低い完全な要約を過剰に生成する傾向があるが、CTRLsumは、キーワード関連のコンテンツに焦点を当てることができることが観察される。
質問誘導要約化は、ゼロショット設定での読解力ベンチマークでテストされる。具体的には、CNNDM要約化モデルは、それぞれ、ドメイン内のNewsQAおよびドメイン外のSQuAD1.1について評価される。いくつかのNewsQAテスト記事がCNNDM要約化トレーニングデータセット内に存在する。これは、キーワードベースモデルがトレーニング中に質問も回答も決して見ないので、依然として合理的な教師なし設定であるからである。普通のBARTモデルとの比較に加えて、GPT2言語モデル(微調整なし)からのゼロショット性能が基準点として含まれる。15億個のパラメータを持つ最大のGPT2モデルは、メモリ制限のために単一のGPUデバイスで評価することができないので、省略される。F1スコアは、2つのベンチマークで報告される。
BARTは、ソースのノイズ除去されたバージョンを予測するためにノイズ除去タスクを用いて事前トレーニングされ、図10に示されるように、ボックス外のゼロショットの読解力に対して不十分に機能する。しかしながら、興味深いことに、トレーニングデータ内の質問-回答ペアを見ることなく、要約化タスクに関して微調整されたBARTは、F1スコアをNewsQAおよびSQuADでそれぞれ24.4および25.9ポイント改善し得る。さらに、質問キーワードを備えたCTRLsumは、性能をさらに15.6および17.9ポイント押し上げて、NewsQAでの教師ありMatchLSTMスコアに近づけることができる。このような結果は、要約化が抽象読解力のための適切な転送タスクであり得ることを示唆する。
図12は、図2に関して説明されたような自動的に抽出したキーワードを使用する、ユーザ入力なしでの制御されていない要約化性能を示す。CNNDMおよびarXivデータセットでは、CTRLsumは、強力なBARTおよびPEGASUSベースラインよりも大幅に優れており、CNNDMに対する新しい最先端の性能をもたらす。それはまた、ROUGE-2スコアは劣るが、BERTScoreに関してはBIGPATENTのBARTベースラインと同程度に機能する。しかしながら、BARTベースモデルとBIGPATENTのPEGASUSとの間には性能に大きなギャップがある。その理由としては、異なるデータセット処理、4つの準最適な学習スケジュール、またはBARTとPEGASUSとの間の固有の差があり得る。
制御された要約化の場合、さらなる人間の評価の結果、意図された制御信号をアノテータに通知することによって直接「制御」を評価する。実験は、エンティティおよび目的の制御について行われる。具体的には、アノテータは、(特定のエンティティまたは特許の目的に焦点を当てた要約を取得するという)意図を知らされ、次いで、アノテータは、以下の2つの次元にわたってスケール1~5でスコアを提供する:(1)Control Accuracy(CA(制御精度)):要約が意図に関して正確な主要情報を含むかどうか、および(2)Control Relevance(CR(制御適合性)):要約が制御意図全体にどれだけ関連しているか-意図に関連しない冗長な内容を含む要約はペナルティを課される。有意性検定を含む結果を図13に示す。重要なエンティティ制御および目的制御のための制御精度は、BARTとCTRLsumとの間で有意な差はなく同等である(p値>0.05)が、CTRLsumは、所望の情報に焦点を当てることによって、全体的に有意により良好な制御適合性を示す。また、制約なしBARTは、重要でないエンティティに関連する要約を生成することができず、したがって、両方の次元でスコアが低くなる。
制御されていない要約化の場合、Amazon Mechanical Turkからの人間のアノテータは、以下の4つの次元にわたって要約をスコア付けする(スケール1~5):(1)Factual Consistency(FAC(事実整合性)):要約は、ソース文書が内含することができるステートメントのみを含むべきである、(2)Relevance(REL(適合性)):要約は、ソース文書の重要な情報のみを含むべきである、(3)Fluency(FLU(流暢さ)):要約中の各センテンスは流暢であるべきである、および(4)Coherence(COH):要約は、十分に構造化され、十分に編成されているべきである。有意性検定を含む結果を図14に示す。すべての次元上のすべてのシステムからの要約の品質は一般に良好であり、スコアは主に4.0よりも高い。しかしながら、ほとんどのスコアは、ROUGE/BERTScoreに関して参照要約に対するそれらの非常に異なる類似性にもかかわらず、大きなp値を有するCTRLsum(自動キーワード)との有意な差を示さない(例えば、オラクルキーワードによるCTRLsum)。これは、BARTのような強力な事前トレーニングされたモデルを備えた異なるシステムからの要約の品質が、専門家でないMTurkerによって明確に区別されることが困難になったことを意味する。また、要約化に対する専門家でない人間の判断は信頼性が低く、専門家の判断との相関が乏しい可能性があることにも留意されたい。
コンピューティングデバイス200などのコンピューティングデバイスのいくつかの例は、1つまたは複数のプロセッサ(例えば、プロセッサ210)によって実行されると、1つまたは複数のプロセッサに、方法400のプロセスを実行させ得る実行可能コードを含む非一時的な有形の機械可読媒体を含み得る。方法400のプロセスを含み得る機械可読媒体のいくつかの一般的な形態は、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、任意の他の光媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、RAM、PROM、EPROM、FLASH(登録商標)-EPROM、任意の他のメモリチップもしくはカートリッジ、および/またはプロセッサもしくはコンピュータが読み取るように構成された任意の他の媒体である。
本発明の態様、実施形態、実装形態、または適用例を示す本説明および添付の図面は、限定するものと解釈されるべきではない。本説明および特許請求の範囲の趣旨および範囲から逸脱することなく、様々な機械的、組成的、構造的、電気的、および動作的な変更がなされ得る。いくつかの事例では、本開示の実施形態を不明瞭にしないために、周知の回路、構造、または技法は、詳細に示され、または説明されていない。2つ以上の図における同様の番号は、同じまたは同様の要素を表す。
この説明では、本開示と一致するいくつかの実施形態を説明する具体的な詳細が記載される。実施形態の完全な理解を与えるために、多数の具体的な詳細が記載される。しかしながら、いくつかの実施形態が、これらの具体的な詳細のうちのいくつかまたはすべてなしに実践され得ることは、当業者には明白となるであろう。本明細書で開示された特定の実施形態は、限定するものではなく、例示的なものであることが意味される。当業者は、本明細書に具体的に説明されていないが、本開示の範囲および精神内である、他の要素を認識し得る。加えて、不必要な繰り返しを回避するために、一実施形態に関連して示され、説明される1つまたは複数の特徴は、別様に具体的に説明されない限り、または1つまたは複数の特徴が実施形態を非機能的にする可能性がある場合、他の実施形態に組み込まれてもよい。
例示的な実施形態が示され、説明されたが、前述の開示では広範囲の修正、変更、および置換が企図されており、いくつかの事例では、実施形態のいくつかの特徴が、他の特徴の対応する使用なしに採用され得る。当業者は、多くの変形例、代替例、および修正例を認識するであろう。したがって、本発明の範囲は、以下の特許請求の範囲によってのみ限定されるべきであり、特許請求の範囲は、広範にかつ本明細書に開示される実施形態の範囲と一致する様式で解釈されることが適切である。
Claims (20)
- 文書の制御可能なテキスト要約化の方法であって、
通信インターフェースにおいて、入力テキスト文書を受信することと、
複数の文書および複数の対応するキーワードのトレーニングデータセットによってトレーニングされた言語モデルを介して、前記入力テキスト文書から、1つまたは複数のキーワードをシーケンスラベリングすることによって、前記1つまたは複数のキーワードを抽出することと、
ユーザインターフェースを介して、制御トークンシーケンスと、生成されるべき要約の特性に関連する1つまたは複数の制御パラメータとを受信することと、
前記受信された制御トークンシーケンスに基づいて前記1つまたは複数のキーワードを修正することと、
前記言語モデルによって、前記1つまたは複数の制御パラメータにしたがって、前記修正された1つまたは複数のキーワードに基づいて前記入力テキスト文書に対する前記要約を生成することと
を含む方法。 - 前記要約の前記特性は、
前記入力テキスト文書で言及されたエンティティ、
前記要約の目標長さ、および
前記入力テキスト文書のタイプ
のうちのいずれかを含む、請求項1に記載の方法。 - 前記1つまたは複数の制御パラメータは、前記入力テキスト文書の前記タイプに対応するプロンプトを含む、請求項2に記載の方法。
- 前記プロンプトは、
研究論文の貢献を要約化する第1の要約プレフィックス、
特許文献の発明の目的を要約化する第2の要約プレフィックス、および
前記入力テキスト文書をガイド付き質疑応答形式で要約化する第3の要約プレフィックス
の群から選択される、請求項3に記載の方法。 - 前記受信された制御トークンシーケンスから、修正されたキーワードの第1のセットおよび第1の制御パラメータを生成することと、
前記言語モデルによって、前記第1の制御パラメータにしたがって、修正されたキーワードの前記第1のセットに基づいて、前記入力テキスト文書に対する前記要約の第1のバージョンを生成することと、
前記受信された制御トークンシーケンスから、修正されたキーワードの第2のセットおよび第2の制御パラメータを生成することと、
前記言語モデルによって、前記第2の制御パラメータにしたがって、前記修正されたキーワードの第2のセットに基づいて、前記入力テキスト文書に対する前記要約の第2のバージョンを生成することと
をさらに含む、請求項1に記載の方法。 - 前記言語モデルは、
特殊トークンで分離されたトレーニングソース文書にキーワードシーケンスをプリペンドすることと、
前記キーワードシーケンスを有する前記トレーニングソース文書を前記言語モデルに入力することと、
前記言語モデルによって、出力要約を生成することと、
前記トレーニングソース文書および前記キーワードシーケンスを条件とする出力要約の条件付き確率を最大化することによって、前記言語モデルを更新することと
によってトレーニングされる、請求項1に記載の方法。 - トレーニング中に前記キーワードシーケンスからキーワードのサブセットをランダムにドロップすること
をさらに含む、請求項6に記載の方法。 - 文書の制御可能なテキスト要約化のシステムであって、
入力テキスト文書を受信する通信インターフェースと、
複数の文書および複数の対応するキーワードのトレーニングデータセットによってトレーニングされる言語モデルを記憶するメモリと、
1つまたは複数のハードウェアプロセッサと
を備え、前記1つまたは複数のハードウェアプロセッサは、
前記言語モデルを介して、前記入力テキスト文書から、1つまたは複数のキーワードをシーケンスラベリングすることによって、前記1つまたは複数のキーワードを抽出することと、
前記通信インターフェースを介して、制御トークンシーケンスと、生成されるべき要約の特性に関連する1つまたは複数の制御パラメータとを受信することと、
前記受信された制御トークンシーケンスに基づいて前記1つまたは複数のキーワードを修正することと、
前記言語モデルによって、前記1つまたは複数の制御パラメータにしたがって、前記修正された1つまたは複数のキーワードに基づいて前記入力テキスト文書に対する前記要約を生成することと
を行う、システム。 - 前記要約の前記特性は、
前記入力テキスト文書で言及されたエンティティ、
前記要約の目標長さ、および
前記入力テキスト文書のタイプ
のうちのいずれかを含む、請求項8に記載のシステム。 - 前記1つまたは複数の制御パラメータは、前記入力テキスト文書の前記タイプに対応するプロンプトを含む、請求項9に記載のシステム。
- 前記プロンプトは、
研究論文の貢献を要約化する第1の要約プレフィックス、
特許文献の発明の目的を要約化する第2の要約プレフィックス、および
前記入力テキスト文書をガイド付き質疑応答形式で要約化する第3の要約プレフィックス
の群から選択される、請求項10に記載のシステム。 - 前記1つまたは複数のハードウェアプロセッサはさらに、
前記受信された制御トークンシーケンスから、修正されたキーワードの第1のセットおよび第1の制御パラメータを生成することと、
前記言語モデルによって、前記第1の制御パラメータにしたがって、修正されたキーワードの前記第1のセットに基づいて、前記入力テキスト文書に対する前記要約の第1のバージョンを生成することと、
前記受信された制御トークンシーケンスから、修正されたキーワードの第2のセットおよび第2の制御パラメータを生成することと、
前記言語モデルによって、前記第2の制御パラメータにしたがって、前記修正されたキーワードの第2のセットに基づいて、前記入力テキスト文書に対する前記要約の第2のバージョンを生成することと
を行う、請求項8に記載のシステム。 - 前記言語モデルは、
特殊トークンで分離されたトレーニングソース文書にキーワードシーケンスをプリペンドすることと、
前記キーワードシーケンスを有する前記トレーニングソース文書を前記言語モデルに入力することと、
前記言語モデルによって、出力要約を生成することと、
前記トレーニングソース文書および前記キーワードシーケンスを条件とする出力要約の条件付き確率を最大化することによって、前記言語モデルを更新することと
によってトレーニングされる、請求項8に記載のシステム。 - 前記1つまたは複数のハードウェアプロセッサはさらに、
トレーニング中に前記キーワードシーケンスからキーワードのサブセットをランダムにドロップする、
請求項13に記載のシステム。 - 文書の制御可能なテキスト要約化のための複数のプロセッサ実行可能命令を記憶する非一時的プロセッサ可読媒体であって、前記命令は、
通信インターフェースにおいて、入力テキスト文書を受信することと、
複数の文書および複数の対応するキーワードのトレーニングデータセットによってトレーニングされた言語モデルを介して、前記入力テキスト文書から、1つまたは複数のキーワードをシーケンスラベリングすることによって、前記1つまたは複数のキーワードを抽出することと、
ユーザインターフェースを介して、制御トークンシーケンスと、生成されるべき要約の特性に関連する1つまたは複数の制御パラメータとを受信することと、
前記受信された制御トークンシーケンスに基づいて前記1つまたは複数のキーワードを修正することと、
前記言語モデルによって、前記1つまたは複数の制御パラメータにしたがって、前記修正された1つまたは複数のキーワードに基づいて前記入力テキスト文書に対する前記要約を生成することと
を含む動作を実行するために、1つまたは複数のプロセッサによって実行される、非一時的プロセッサ可読媒体。 - 前記要約の前記特性は、
前記入力テキスト文書で言及されたエンティティ、
前記要約の目標長さ、および
前記入力テキスト文書のタイプ
のうちのいずれかを含む、請求項15に記載の非一時的プロセッサ可読媒体。 - 前記1つまたは複数の制御パラメータは、前記入力テキスト文書の前記タイプに対応するプロンプトを含む、請求項16に記載の非一時的プロセッサ可読媒体。
- 前記プロンプトは、
研究論文の貢献を要約化する第1の要約プレフィックス、
特許文献の発明の目的を要約化する第2の要約プレフィックス、および
前記入力テキスト文書をガイド付き質疑応答形式で要約化する第3の要約プレフィックス
の群から選択される、請求項17に記載の非一時的プロセッサ可読媒体。 - 前記動作は、
前記受信された制御トークンシーケンスから、修正されたキーワードの第1のセットおよび第1の制御パラメータを生成することと、
前記言語モデルによって、前記第1の制御パラメータにしたがって、修正されたキーワードの前記第1のセットに基づいて、前記入力テキスト文書に対する前記要約の第1のバージョンを生成することと、
前記受信された制御トークンシーケンスから、修正されたキーワードの第2のセットおよび第2の制御パラメータを生成することと、
前記言語モデルによって、前記第2の制御パラメータにしたがって、前記修正されたキーワードの第2のセットに基づいて、前記入力テキスト文書に対する前記要約の第2のバージョンを生成することと
をさらに含む、請求項16に記載の非一時的プロセッサ可読媒体。 - 前記言語モデルは、
特殊トークンで分離されたトレーニングソース文書にキーワードシーケンスをプリペンドすることと、
トレーニング中に前記キーワードシーケンスからキーワードのサブセットをランダムにドロップすることと、
前記キーワードシーケンスを有する前記トレーニングソース文書を前記言語モデルに入力することと、
前記言語モデルによって、出力要約を生成することと、
前記トレーニングソース文書および前記キーワードシーケンスを条件とする出力要約の条件付き確率を最大化することによって、前記言語モデルを更新することと
によってトレーニングされる、請求項15に記載の非一時的プロセッサ可読媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063071571P | 2020-08-28 | 2020-08-28 | |
US63/071,571 | 2020-08-28 | ||
US17/125,468 US11934781B2 (en) | 2020-08-28 | 2020-12-17 | Systems and methods for controllable text summarization |
US17/125,468 | 2020-12-17 | ||
PCT/US2021/045385 WO2022046403A1 (en) | 2020-08-28 | 2021-08-10 | Systems and methods for controllable text summarization |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023536103A true JP2023536103A (ja) | 2023-08-23 |
Family
ID=77627529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023505847A Pending JP2023536103A (ja) | 2020-08-28 | 2021-08-10 | 制御可能なテキスト要約化のためのシステムおよび方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11934781B2 (ja) |
EP (1) | EP4204991A1 (ja) |
JP (1) | JP2023536103A (ja) |
CN (1) | CN116097248A (ja) |
WO (1) | WO2022046403A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3905142A1 (en) * | 2020-04-30 | 2021-11-03 | Naver Corporation | Abstractive multi-document summarization through self-supervision and control |
JP2022098219A (ja) * | 2020-12-21 | 2022-07-01 | 富士通株式会社 | 学習プログラム、学習方法、および学習装置 |
US20230367960A1 (en) * | 2022-05-10 | 2023-11-16 | Google Llc | Summarization based on timing data |
US11783112B1 (en) * | 2022-09-30 | 2023-10-10 | Intuit, Inc. | Framework agnostic summarization of multi-channel communication |
Family Cites Families (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7509572B1 (en) * | 1999-07-16 | 2009-03-24 | Oracle International Corporation | Automatic generation of document summaries through use of structured text |
US20020078090A1 (en) * | 2000-06-30 | 2002-06-20 | Hwang Chung Hee | Ontological concept-based, user-centric text summarization |
US11651039B1 (en) * | 2007-02-06 | 2023-05-16 | Dmitri Soubbotin | System, method, and user interface for a search engine based on multi-document summarization |
US9037590B2 (en) | 2012-01-23 | 2015-05-19 | Formcept Technologies and Solutions Pvt Ltd | Advanced summarization based on intents |
US20140250375A1 (en) * | 2013-03-04 | 2014-09-04 | Xerox Corporation | Method and system for summarizing documents |
US10599741B2 (en) * | 2013-07-08 | 2020-03-24 | Big Fish Design, Llc | Application software for a browser with enhanced efficiency |
US20160350653A1 (en) | 2015-06-01 | 2016-12-01 | Salesforce.Com, Inc. | Dynamic Memory Network |
US11113598B2 (en) | 2015-06-01 | 2021-09-07 | Salesforce.Com, Inc. | Dynamic memory network |
US20170140240A1 (en) | 2015-07-27 | 2017-05-18 | Salesforce.Com, Inc. | Neural network combined image and text evaluator and classifier |
US20170032280A1 (en) | 2015-07-27 | 2017-02-02 | Salesforce.Com, Inc. | Engagement estimator |
CN108140141B (zh) | 2015-08-15 | 2019-09-06 | 易享信息技术有限公司 | 在深度神经网络中对表征输入放射体的三维3d数据进行分类的计算机实现的方法及系统 |
US10565493B2 (en) | 2016-09-22 | 2020-02-18 | Salesforce.Com, Inc. | Pointer sentinel mixture architecture |
US11042796B2 (en) | 2016-11-03 | 2021-06-22 | Salesforce.Com, Inc. | Training a joint many-task neural network model using successive regularization |
US20180129937A1 (en) | 2016-11-04 | 2018-05-10 | Salesforce.Com, Inc. | Quasi-recurrent neural network |
US10963782B2 (en) | 2016-11-04 | 2021-03-30 | Salesforce.Com, Inc. | Dynamic coattention network for question answering |
US10558750B2 (en) | 2016-11-18 | 2020-02-11 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
US11354565B2 (en) | 2017-03-15 | 2022-06-07 | Salesforce.Com, Inc. | Probability-based guider |
US10565318B2 (en) | 2017-04-14 | 2020-02-18 | Salesforce.Com, Inc. | Neural machine translation with latent tree attention |
US10474709B2 (en) | 2017-04-14 | 2019-11-12 | Salesforce.Com, Inc. | Deep reinforced model for abstractive summarization |
US10747761B2 (en) | 2017-05-18 | 2020-08-18 | Salesforce.Com, Inc. | Neural network based translation of natural language queries to database queries |
US11386327B2 (en) | 2017-05-18 | 2022-07-12 | Salesforce.Com, Inc. | Block-diagonal hessian-free optimization for recurrent and convolutional neural networks |
US20180336453A1 (en) | 2017-05-19 | 2018-11-22 | Salesforce.Com, Inc. | Domain specific language for generation of recurrent neural network architectures |
US10817650B2 (en) | 2017-05-19 | 2020-10-27 | Salesforce.Com, Inc. | Natural language processing using context specific word vectors |
US20190130896A1 (en) | 2017-10-26 | 2019-05-02 | Salesforce.Com, Inc. | Regularization Techniques for End-To-End Speech Recognition |
US11170287B2 (en) | 2017-10-27 | 2021-11-09 | Salesforce.Com, Inc. | Generating dual sequence inferences using a neural network model |
US11928600B2 (en) | 2017-10-27 | 2024-03-12 | Salesforce, Inc. | Sequence-to-sequence prediction using a neural network model |
US11604956B2 (en) | 2017-10-27 | 2023-03-14 | Salesforce.Com, Inc. | Sequence-to-sequence prediction using a neural network model |
US10573295B2 (en) | 2017-10-27 | 2020-02-25 | Salesforce.Com, Inc. | End-to-end speech recognition with policy learning |
US11562287B2 (en) | 2017-10-27 | 2023-01-24 | Salesforce.Com, Inc. | Hierarchical and interpretable skill acquisition in multi-task reinforcement learning |
US10592767B2 (en) | 2017-10-27 | 2020-03-17 | Salesforce.Com, Inc. | Interpretable counting in visual question answering |
US10542270B2 (en) | 2017-11-15 | 2020-01-21 | Salesforce.Com, Inc. | Dense video captioning |
US11276002B2 (en) | 2017-12-20 | 2022-03-15 | Salesforce.Com, Inc. | Hybrid training of deep networks |
US11501076B2 (en) | 2018-02-09 | 2022-11-15 | Salesforce.Com, Inc. | Multitask learning as question answering |
JP6958417B2 (ja) * | 2018-02-20 | 2021-11-02 | 日本電信電話株式会社 | 文書要約装置、方法、及びプログラム |
US11227218B2 (en) | 2018-02-22 | 2022-01-18 | Salesforce.Com, Inc. | Question answering from minimal context over documents |
US10929607B2 (en) | 2018-02-22 | 2021-02-23 | Salesforce.Com, Inc. | Dialogue state tracking using a global-local encoder |
US10783875B2 (en) | 2018-03-16 | 2020-09-22 | Salesforce.Com, Inc. | Unsupervised non-parallel speech domain adaptation using a multi-discriminator adversarial network |
US11106182B2 (en) | 2018-03-16 | 2021-08-31 | Salesforce.Com, Inc. | Systems and methods for learning for domain adaptation |
US11600194B2 (en) | 2018-05-18 | 2023-03-07 | Salesforce.Com, Inc. | Multitask learning as question answering |
US10909157B2 (en) | 2018-05-22 | 2021-02-02 | Salesforce.Com, Inc. | Abstraction of text summarization |
US11436481B2 (en) | 2018-09-18 | 2022-09-06 | Salesforce.Com, Inc. | Systems and methods for named entity recognition |
US20200090034A1 (en) | 2018-09-18 | 2020-03-19 | Salesforce.Com, Inc. | Determining Intent from Unstructured Input to Update Heterogeneous Data Stores |
US10970486B2 (en) | 2018-09-18 | 2021-04-06 | Salesforce.Com, Inc. | Using unstructured input to update heterogeneous data stores |
US11514915B2 (en) | 2018-09-27 | 2022-11-29 | Salesforce.Com, Inc. | Global-to-local memory pointer networks for task-oriented dialogue |
US11087177B2 (en) | 2018-09-27 | 2021-08-10 | Salesforce.Com, Inc. | Prediction-correction approach to zero shot learning |
US11029694B2 (en) | 2018-09-27 | 2021-06-08 | Salesforce.Com, Inc. | Self-aware visual-textual co-grounded navigation agent |
US11645509B2 (en) | 2018-09-27 | 2023-05-09 | Salesforce.Com, Inc. | Continual neural network learning via explicit structure learning |
US10963652B2 (en) | 2018-12-11 | 2021-03-30 | Salesforce.Com, Inc. | Structured text translation |
US11922323B2 (en) | 2019-01-17 | 2024-03-05 | Salesforce, Inc. | Meta-reinforcement learning gradient estimation with variance reduction |
US10891427B2 (en) * | 2019-02-07 | 2021-01-12 | Adobe Inc. | Machine learning techniques for generating document summaries targeted to affective tone |
US11568306B2 (en) | 2019-02-25 | 2023-01-31 | Salesforce.Com, Inc. | Data privacy protected machine learning systems |
US11003867B2 (en) | 2019-03-04 | 2021-05-11 | Salesforce.Com, Inc. | Cross-lingual regularization for multilingual generalization |
US11366969B2 (en) | 2019-03-04 | 2022-06-21 | Salesforce.Com, Inc. | Leveraging language models for generating commonsense explanations |
US11087092B2 (en) | 2019-03-05 | 2021-08-10 | Salesforce.Com, Inc. | Agent persona grounded chit-chat generation framework |
US11580445B2 (en) | 2019-03-05 | 2023-02-14 | Salesforce.Com, Inc. | Efficient off-policy credit assignment |
US10902289B2 (en) | 2019-03-22 | 2021-01-26 | Salesforce.Com, Inc. | Two-stage online detection of action start in untrimmed videos |
US11281863B2 (en) | 2019-04-18 | 2022-03-22 | Salesforce.Com, Inc. | Systems and methods for unifying question answering and text classification via span extraction |
US11487939B2 (en) | 2019-05-15 | 2022-11-01 | Salesforce.Com, Inc. | Systems and methods for unsupervised autoregressive text compression |
US11687588B2 (en) | 2019-05-21 | 2023-06-27 | Salesforce.Com, Inc. | Weakly supervised natural language localization networks for video proposal prediction based on a text query |
US11775775B2 (en) | 2019-05-21 | 2023-10-03 | Salesforce.Com, Inc. | Systems and methods for reading comprehension for a question answering task |
US11669712B2 (en) | 2019-05-21 | 2023-06-06 | Salesforce.Com, Inc. | Robustness evaluation via natural typos |
-
2020
- 2020-12-17 US US17/125,468 patent/US11934781B2/en active Active
-
2021
- 2021-08-10 JP JP2023505847A patent/JP2023536103A/ja active Pending
- 2021-08-10 WO PCT/US2021/045385 patent/WO2022046403A1/en unknown
- 2021-08-10 EP EP21765774.1A patent/EP4204991A1/en active Pending
- 2021-08-10 CN CN202180051981.0A patent/CN116097248A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
CN116097248A (zh) | 2023-05-09 |
WO2022046403A1 (en) | 2022-03-03 |
US11934781B2 (en) | 2024-03-19 |
US20220067284A1 (en) | 2022-03-03 |
EP4204991A1 (en) | 2023-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bajaj et al. | Ms marco: A human generated machine reading comprehension dataset | |
JP7282940B2 (ja) | 電子記録の文脈検索のためのシステム及び方法 | |
CN111177569B (zh) | 基于人工智能的推荐处理方法、装置及设备 | |
Hill et al. | The goldilocks principle: Reading children's books with explicit memory representations | |
JP2023536103A (ja) | 制御可能なテキスト要約化のためのシステムおよび方法 | |
Coelho et al. | Building machine learning systems with Python | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
JP4148522B2 (ja) | 表現検出システム、表現検出方法、及びプログラム | |
EP2583203A2 (en) | Semantic content searching | |
Zhang et al. | Summarizing and exploring tabular data in conversational search | |
CN112805715A (zh) | 识别实体属性关系 | |
Blair et al. | Automated generation of multilingual clusters for the evaluation of distributed representations | |
Islam et al. | Towards achieving a delicate blending between rule-based translator and neural machine translator | |
Aralikatte et al. | Fault in your stars: an analysis of android app reviews | |
Shah et al. | Simple App Review Classification with Only Lexical Features. | |
US10585640B2 (en) | Automated voice enablement of applications | |
Gehrmann et al. | Improving human text comprehension through semi-Markov CRF-based neural section title generation | |
Muhamad et al. | Proposal: A hybrid dictionary modelling approach for malay tweet normalization | |
US10481865B2 (en) | Automated voice enablement of applications | |
Kim et al. | Zero-shot triplet extraction by template infilling | |
CN112446206A (zh) | 一种菜谱标题的生成方法及装置 | |
Rawat et al. | A Systematic Literature Review (SLR) On The Beginning of Resume Parsing in HR Recruitment Process & SMART Advancements in Chronological Order | |
US20220382753A1 (en) | Narrowing synonym dictionary results using document attributes | |
Kedzie | Salience Estimation and Faithful Generation: Modeling Methods for Text Summarization and Generation | |
Bailey | Out of the mouths of users: Examining user-developer feedback loops facilitated by app stores |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230127 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240229 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240312 |