JP2022152367A

JP2022152367A - 機械学習プログラム、機械学習方法および情報処理装置

Info

Publication number: JP2022152367A
Application number: JP2021055116A
Authority: JP
Inventors: 拓哉牧野; Takuya Makino
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2022-10-12
Also published as: US20220309244A1

Abstract

【課題】要約精度を向上させる。【解決手段】機械学習プログラムは、対象文書より分割した各トークンの第１のアテンションスコアをトークン列について並列に算出する処理をコンピュータに実行させる。また、機械学習プログラムは、算出した各トークンの第１のアテンションスコアに基づいて各トークンのカバレッジスコアを算出する処理をコンピュータに実行させる。また、機械学習プログラムは、算出した各トークンのカバレッジスコアをもとに各トークンの第２のアテンションスコアをトークン列について並列に算出する処理をコンピュータに実行させる。また、機械学習プログラムは、算出した各トークンの第２のアテンションスコアに基づいて、トークンごとに、対象文書からの要約文にトークンを含める確率を算出する処理をコンピュータに実行させる。【選択図】図１

Description

本発明の実施形態は、機械学習プログラム、機械学習方法および情報処理装置に関する。

従来、ニューラルネットワークなどの機械学習モデルを利用して新聞やＷｅｂサイトなどの文書から要約文を作成する自動要約が知られている。この要約文を作成するための機械学習モデルとしては、カバレッジ（原文書で同じ単語に何度も高いアテンション確率（アテンションスコアとも呼ぶ）を与えないための仕組み）を考慮したＬＳＴＭ（Long Short-Term Memory）に基づく要約モデルがある。

また、近年における要約の精度が高い機械学習モデルとして、Ｔｒａｎｓｆｏｒｍｅｒに基づく要約モデルが知られている。このＴｒａｎｓｆｏｒｍｅｒに基づく要約モデルでは、学習時に時間方向（正解の要約の単語（トークン）列）に対して並列に計算が可能であり、ＬＳＴＭと比較して処理を高速に行うことができる。

Get To The Point: Summarization with Pointer-Generator Networks , ACL2017 The Illustrated Transformer - Jay Alammar - Visualizing machine learning one concept at a time.［２０２１／３／１０検索］、インターネット＜URL:http://jalammar.github.io/illustrated-transformer/＞秋山和輝, 田村晃裕, 二宮崇, 大林弘明. "Coverageを考慮したBERTSUMによる生成型自動要約", 言語処理学会第26回年次大会発表論文集, pp.449-452, March 2020.

しかしながら、Ｔｒａｎｓｆｏｒｍｅｒに基づく要約モデルでは、カバレッジを考慮しておらず、例えば単語の繰り返し生成が行われるような精度劣化が生じるという問題がある。

例えば、Ｔｒａｎｓｆｏｒｍｅｒに基づく要約モデルでは、学習時に時間方向に対して並列に計算を行い、正解とする要約のトークンの生成確率（および各トークンのアテンションスコア）は並列に計算される。カバレッジは、学習時における時間方向で過去の時刻のアテンションスコアの総和であるので、並列に計算するＴｒａｎｓｆｏｒｍｅｒではカバレッジを利用できない。

１つの側面では、要約精度を向上することができる機械学習プログラム、機械学習方法および情報処理装置を提供することを目的とする。

１つの案では、機械学習プログラムは、対象文書より分割した各トークンの第１のアテンションスコアをトークン列について並列に算出する処理をコンピュータに実行させる。また、機械学習プログラムは、算出した各トークンの第１のアテンションスコアに基づいて各トークンのカバレッジスコアを算出する処理をコンピュータに実行させる。また、機械学習プログラムは、算出した各トークンのカバレッジスコアをもとに各トークンの第２のアテンションスコアをトークン列について並列に算出する処理をコンピュータに実行させる。また、機械学習プログラムは、算出した各トークンの第２のアテンションスコアに基づいて、トークンごとに、対象文書からの要約文にトークンを含める確率を算出する処理をコンピュータに実行させる。

要約精度を向上することができる。

図１は、実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図２は、第１のアテンション確率の計算例を説明する説明図である。図３は、カバレッジの計算例を説明する説明図である。図４は、第２のアテンション確率の計算例を説明する説明図である。図５は、実施形態にかかる情報処理装置の動作例を示すフローチャートである。図６は、学習事例の一例を説明する説明図である。図７は、実施形態にかかる情報処理装置の動作例を示すフローチャートである。図８は、コンピュータ構成の一例を説明する説明図である。

以下、図面を参照して、実施形態にかかる機械学習プログラム、機械学習方法および情報処理装置を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する機械学習プログラム、機械学習方法および情報処理装置は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。

図１は、実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図１に示すように、情報処理装置１は、入力記事と、この入力記事に対する正解の要約文がペアとなっている学習事例１１より要約文を生成する機械学習モデル４１の機械学習を行う。そして、情報処理装置１は、学習済みの機械学習モデル４１を用いて入力記事１２に対する要約文を生成する。

情報処理装置１が用いる機械学習モデル４１は、Ｔｒａｎｓｆｏｒｍｅｒに基づく要約モデルである。情報処理装置１は、Ｔｒａｎｓｆｏｒｍｅｒに基づく機械学習モデル４１の学習時において、時間方向（正解の要約の単語（トークン）列）に対して並列に計算が可能とする並列性を損なわずにカバレッジを考慮したアテンション確率を計算する。

具体的には、情報処理装置１は、対象文書の一例である学習事例１１の入力記事の各トークンについて２段階に分けてアテンション確率の計算を実施する。まず、情報処理装置１は、各トークンについて、１段階目はカバレッジを考慮せずにアテンション確率を計算する。次いで、情報処理装置１は、各トークンについて１段階目に計算されたアテンション確率に基づいてカバレッジを近似的に計算する。次いで、情報処理装置１は、各トークンについて、２段階目は計算されたカバレッジを考慮してアテンション確率を計算する。次いで、情報処理装置１は、各トークンについて、２段階目に計算されたアテンション確率に基づいて要約文にトークンを含める生成確率を計算する。

このように、情報処理装置１は、カバレッジをもとに算出したアテンション確率に基づいて、トークンごとに、要約文にトークンを含める生成確率を計算するので、カバレッジ損失を追加して機械学習モデル４１の機械学習を行うことができ、要約精度のさらなる改善が期待できる。例えば、カバレッジ損失を追加した機械学習による機械学習モデル４１を用いた自動要約では、トークンの繰り返し生成が行われるようなことを抑止でき、精度のよい要約文を生成できる。

具体的には、情報処理装置１は、入力部１０、計算処理部２０、機械学習モデル生成部３０、記憶部４０、推定部５０および出力部６０を有する。

入力部１０は、外部機器との通信、半導体メモリなどの記憶媒体からのデータの読み出しなどにより各種情報の入力を受け付け、受け付けたデータに対する前処理を行う処理部である。入力部１０は、例えば要約文を作成するための機械学習モデルの生成（学習）に関する学習事例１１または要約文の作成対象とする入力記事１２のデータを受け付ける。入力部１０は、受け付けた学習事例１１または入力記事１２のデータについて、公知の文書解析処理により単語（トークン）への分割を行う。

計算処理部２０は、学習事例１１を用いた機械学習モデル４１の学習時における計算処理を行う処理部である。計算処理部２０は、第１アテンション計算部２１、カバレッジ計算部２２、第２アテンション計算部２３および単語生成確率計算部２４を有する。

第１アテンション計算部２１は、学習事例１１より分割した各トークンにおける要約時の注目度を示すアテンションスコア（第１のアテンション確率）を、Ｔｒａｎｓｆｏｒｍｅｒにおける公知の手法によりトークン列について並列に算出する。例えば、第１アテンション計算部２１における各トークンの第１のアテンション確率の計算は、次の式（１）のとおりになる。

式（１）において、ｑはＱｕｅｒｙ、ｋはＫｅｙ、ｖはＶａｌｕｅを示す。ｓ_ｔは、要約の時刻（ｔ）の隠れ状態（ベクトル）を示す。ｈ_ｉは、入力テキストのｉ番目の単語（トークン）の隠れ状態を示す。Ｗ_＊は、Ｔｒａｎｓｆｏｒｍｅｒのパラメータ（＊はｑ、ｋ、ｖのいずれか）を示す。ｄは、ｓ_ｔの次元を示す。ａ_ｔ，ｉは、時刻（ｔ）におけるｉ番目の単語（トークン）のアテンション確率（アテンションスコア）を示す。

図２は、第１のアテンション確率の計算例を説明する説明図である。図２に示すように、第１アテンション計算部２１は、式（１）により、「空」「が」「とても」「青い」…のトークンＴ１、Ｔ２、Ｔ３、Ｔ４…における時刻（１、２、３、…）ごとの第１のアテンション確率（ａ_１、ａ_２、ａ_３…）を計算する。

例えば、時刻（１）におけるアテンション確率は、トークンＴ１の「空」は０．７である。トークンＴ２の「が」は０．１である。トークンＴ３の「とても」は０．１である。トークンＴ４の「青い」は０．１である。よって、正解の要約の単語（トークン）列における時刻（１）で最もアテンション確率が高いトークンは、トークンＴ１の「空」となる。

同様に、時刻（２）におけるアテンション確率は、トークンＴ１の「空」は０．２、トークンＴ２の「が」は０．６、トークンＴ３の「とても」は０．１、トークンＴ４の「青い」は０．１である。このため、時刻（２）で最もアテンション確率が高いトークンは、トークンＴ２の「が」となる。

また、時刻（３）におけるアテンション確率は、トークンＴ１の「空」は０．、トークンＴ２の「が」は０．、トークンＴ３の「とても」は０．４、トークンＴ４の「青い」は０．３である。このため、時刻（３）で最もアテンション確率が高いトークンは、トークンＴ２の「とても」となる。

カバレッジ計算部２２は、第１アテンション計算部２１が算出した算出した各トークンの第１のアテンション確率に基づいて各トークンのカバレッジスコアを算出する。具体的には、カバレッジ計算部２２は、時刻（ｔ）におけるｉ番目の単語（トークン）のガバレッジスコアをｃ_ｔ，ｉとすると、ａ_ｔ，ｉの時刻（ｔ－１）までの総和としてｃ_ｔ，ｉを計算する。

図３は、カバレッジの計算例を説明する説明図である。図３に示すように、カバレッジ計算部２２は、各トークンについて、前の時刻までのアテンション確率の総和によりガバレッジスコアを計算する。

例えば、トークンＴ１の「空」について、時刻（１）のガバレッジスコア（ｃ_１）は０である。次いで、時刻（２）のガバレッジスコア（ｃ_２）は、前の時刻までのアテンション確率（ａ_１）の総和により、０．７となる。次いで、時刻（３）のガバレッジスコア（ｃ_３）は、前の時刻までのアテンション確率（ａ_１、ａ_２）の総和（０．７＋０．２）により、０．９となる。

第２アテンション計算部２３は、カバレッジ計算部２２が算出した各トークンのカバレッジスコアをもとに、Ｔｒａｎｓｆｏｒｍｅｒにおける公知の手法を適用して、各トークンの第２のアテンション確率をトークン列について並列に算出する。例えば、第２アテンション計算部２３における各トークンの第２のアテンション確率の計算は、次の式（２）のとおりになる。

式（２）において、ｗ_ｃは、カバレッジに対するパラメータである。式（２）のとおり、第２のアテンション確率（ａ_ｔ，ｉ）の計算は、カバレッジスコアに関する項（ｗ_ｃｃ_ｔ，ｉ）を含む、カバレッジを考慮したものとなる。

図４は、第２のアテンション確率の計算例を説明する説明図である。図４に示すように、第２アテンション計算部２３は、式（２）により、「空」「が」「とても」「青い」…のトークンＴ１、Ｔ２、Ｔ３、Ｔ４…における時刻（１、２、３、…）ごとの第２のアテンション確率（ａ_１、ａ_２、ａ_３…）をカバレッジスコア（ｃ_１、ｃ_２、ｃ_３）をもとに計算する。

例えば、時刻（２）におけるアテンション確率は、トークンＴ１の「空」は０．１、トークンＴ２の「が」は０．７、トークンＴ３の「とても」は０．１、トークンＴ４の「青い」は０．１である。図２における第１のアテンション確率と比較すると、図４における第２のアテンション確率は、トークンＴ１が０．２から０．１に、トークンＴ２の０．６が０．７に改められている。

また、時刻（３）におけるアテンション確率は、トークンＴ１の「空」は０．、トークンＴ２の「が」は０．、トークンＴ３の「とても」は０．５、トークンＴ４の「青い」は０．５である。図２における第１のアテンション確率と比較すると、図４における第２のアテンション確率は、トークンＴ３が０．４から０．５に、トークンＴ４の０．３が０．５に改められている。

単語生成確率計算部２４は、第２アテンション計算部２３が算出した各トークン（単語）の第２のアテンション確率に基づいて、トークンごとに、学習事例１１の入力記事から要約文にトークンを含める生成確率を算出する。なお、単語生成確率計算部２４がトークンごとの生成確率を求める際には、第２のアテンション確率の他に、他の隠れ状態（パラメータ）を用いてもよい。

具体的には、単語生成確率計算部２４は、各トークン（単語）の第２のアテンション確率および他の隠れ状態より、「空」、「が」、「青い」などのトークンを並べて要約文とする場合の、各トークンの条件付き生成確率（ｐ）を求める。これにより、計算処理部２０では、最も確率が高くなるトークンの並びを要約文とすることができる。

例えば、単語生成確率計算部２４は、時刻ごとのｐ（空｜^BOS）、ｐ（が｜空，^BOS）、ｐ（青い｜空，が，^BOS）…を求める。これにより、計算処理部２０では、時刻ごとの各トークンの生成確率の分布より、「空」、「が」、「青い」と並べる要約文を得ることができる。なお、ＢＯＳは要約の先頭を表す記号とする。

機械学習モデル生成部３０は、計算処理部２０の算出結果および学習事例１１に含まれる正解の要約文をもとに、機械学習モデル４１を生成する処理部である。具体的には、機械学習モデル生成部３０は、計算処理部２０の算出結果における要約文が正解とする要約文となるように機械学習モデル４１のパラメータを計算する。一例として、機械学習モデル生成部３０は、正解の要約文による負の生成確率およびカバレッジの損失を損失関数として逆誤差伝搬法により勾配を計算し、計算した勾配に基づいて機械学習モデル４１のパラメータを設定（学習）する。

記憶部４０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、ハードディスクや光ディスク等の記憶装置によって実現される。記憶部４０は、機械学習モデル生成部３０が生成した機械学習モデル４１に関するパラメータ等のデータを格納する。

推定部５０は、記憶部４０に格納された学習済みの機械学習モデル４１をもとに、入力記事１２に対する要約文を推定する処理部である。

具体的には、推定部５０は、記憶部４０より読み出したパラメータをもとに機械学習モデル４１を構築する。次いで、推定部５０は、構築した機械学習モデル４１に入力記事１２より分割した各トークンを入力することで機械学習モデル４１の出力として、時刻ごとの各トークンの生成確率の分布を得る。

ここで、推定部５０は、時刻が２以上である場合、カバレッジ計算部２２と同様に過去のアテンション確率を用いてカバレッジスコアの計算を行う。次いで、推定部５０は、第２アテンション計算部２３と同様、計算したカバレッジスコアをもとにアテンション確率を計算する。

次いで、推定部５０は、時刻ごとの各トークンの生成確率の分布をもとに、最も確率が高くなるトークンの並びの要約文を推定結果として得る。

出力部６０は、推定部５０の推定結果を出力する処理部である。具体的には、出力部６０は、推定部５０が推定した要約文を表示画面やファイルとして出力する。例えば、出力部６０は、入力記事１２と、入力記事１２より推定部５０が推定した要約文とを並べた表示画面を出力する。

図５は、実施形態にかかる情報処理装置１の動作例を示すフローチャートである。具体的には、図５は、学習事例１１による機械学習モデル４１の機械学習に関する情報処理装置１の処理手順を例示している。

図５に示すように、機械学習に関する処理が開始されると、入力部１０は、学習事例１１の入力を受け付け（Ｓ１）、学習事例１１に含まれる入力記事を単語（トークン）に分割する。図６は、学習事例１１の一例を説明する説明図である。図６に示すように、学習事例１１には、入力記事と、この入力記事における正解の要約とがペアとして含まれる。

次いで、第１アテンション計算部２１は、学習事例１１に対して、入力記事より分割したトークンごとの１回目のアテンション確率（第１のアテンション確率）を式（１）のとおりに計算する（Ｓ２）。次いで、カバレッジ計算部２２は、第１アテンション計算部２１が算出した算出した各トークンの１回目のアテンション確率に基づいてカバレッジスコアの近似値を計算する（Ｓ３）。

次いで、第２アテンション計算部２３は、学習事例１１に対して、カバレッジを考慮して２回目のアテンション確率（第２のアテンション確率）を式（２）のとおりに計算する（Ｓ４）。

次いで、単語生成確率計算部２４は、第２アテンション計算部２３が算出した各単語の２回目のアテンション確率およびその他のパラメータ（隠れ状態）に基づいて各単語の生成確率を計算する（Ｓ５）。

次いで、機械学習モデル生成部３０は、学習事例１１に含まれる正解の要約による負の生成確率およびカバレッジの損失を損失関数として逆誤差伝搬法により勾配を計算する（Ｓ６）。次いで、機械学習モデル生成部３０は、計算した勾配に基づいて機械学習モデル４１のパラメータを学習する（Ｓ７）。情報処理装置１では、複数の学習事例１１に対してＳ１～Ｓ７の処理を繰り返し、複数の学習事例１１に対応する機械学習モデル４１のパラメータを学習する。

次いで、機械学習モデル生成部３０は、学習事例１１による学習済みの機械学習モデル４１のパラメータを記憶部４０に格納し（Ｓ８）、処理を終了する。

図７は、実施形態にかかる情報処理装置１の動作例を示すフローチャートである。具体的には、図７は、入力記事１２に対する要約文の推定に関する情報処理装置１の処理手順を例示している。

図７に示すように、推定に関する処理が開始されると、入力部１０は、入力記事１２の入力を受け付け（Ｓ１１）、入力記事１２を単語（トークン）に分割する。

次いで、推定部５０は、記憶部４０より読み出したパラメータをもとに機械学習モデル４１を構築する（Ｓ１２）。次いで、推定部５０は、入力記事１２より分割した各単語を構築した機械学習モデル４１に入力し、時刻ごとに要約文に用いる単語を得るループ処理（Ｓ１３～Ｓ１９）を実行する。

具体的には、推定部５０は、もし時刻が２以上である場合、カバレッジ計算部２２と同様に過去のアテンション確率を用いてカバレッジスコアを計算する（Ｓ１４）。

次いで、推定部５０は、現在の時刻の要約側の隠れ状態と、原文書（入力記事１２）側の各単語の隠れ状態との間のアテンション確率を計算する（Ｓ１５）。ここで、推定部５０は、もし時刻が２以上である場合、第２アテンション計算部２３と同様、計算したカバレッジスコアをもとにアテンション確率を計算する。

次いで、推定部５０は、アテンション確率およびその他の隠れ状態（パラメータ）に基づいて、各単語の生成確率を計算する（Ｓ１６）。次いで、推定部５０は、確率が最大となる単語を出力し（Ｓ１７）、終端を表す単語を出力した場合は繰り返し（ループ処理）を終了する（Ｓ１８）。推定部５０は、Ｓ１７において終端を表す単語を出力していない場合、Ｓ１３へ処理を戻し、ループ処理を継続する。

出力部６０は、推定部５０におけるループ処理により得られた単語を並べた要約結果を出力し（Ｓ２０）、処理を終了する。

以上のように、情報処理装置１の第１アテンション計算部２１は、対象文書より分割した各トークンの第１のアテンションスコアをトークン列について並列に算出する。情報処理装置１のカバレッジ計算部２２は、算出した各トークンの第１のアテンションスコアに基づいて各トークンのカバレッジスコアを算出する。情報処理装置１の第２アテンション計算部２３は、算出した各トークンのカバレッジスコアをもとに各トークンの第２のアテンションスコアをトークン列について並列に算出する。情報処理装置１の単語生成確率計算部２４は、算出した各トークンの第２のアテンションスコアに基づいて、トークンごとに、対象文書からの要約文にトークンを含める確率（生成確率）を算出する。

このように、情報処理装置１は、カバレッジスコアをもとに算出したアテンションスコアに基づいて、トークンごとに、対象文書からの要約文にトークンを含める確率を算出するので、要約精度を向上することができる。例えば、情報処理装置１では、対象文書から単語（トークン）の繰り返し生成が行われるようなことを抑止できる。また、情報処理装置１では、アテンションスコアをトークン列について並列に算出するので、ＬＳＴＭと比較して処理を高速に行うことができる。

また、情報処理装置１のカバレッジ計算部２２は、トークン列について並列に算出したトークンごとの第１のアテンションスコアの総和によりカバレッジスコアを算出する。これにより、情報処理装置１では、第１のアテンションスコアからトークンごとのカバレッジスコアを得ることができる。

また、情報処理装置１は、トークンごとに算出した確率を用いて、対象文書の要約文に含まれるトークンを正解として機械学習モデルの機械学習を実行する機械学習モデル生成部３０を有する。これにより、情報処理装置１は、カバレッジを考慮した精度のよい機械学習モデルを生成することができる。

なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、情報処理装置１の入力部１０、計算処理部２０、機械学習モデル生成部３０、推定部５０および出力部６０の各種処理機能は、制御部の一例としてのＣＰＵ（またはＭＰＵ、ＭＣＵ（Micro Controller Unit）等のマイクロ・コンピュータ）上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ等のマイクロ・コンピュータ）で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、情報処理装置１で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。

ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施形態と同様の機能を有するプログラムを実行するコンピュータ構成（ハードウエア）の一例を説明する。図８は、コンピュータ構成の一例を説明する説明図である。

図８に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、データ入力を受け付ける入力装置２０２と、モニタ２０３と、スピーカー２０４とを有する。また、コンピュータ２００は、記憶媒体からプログラム等を読み取る媒体読取装置２０５と、各種装置と接続するためのインタフェース装置２０６と、有線または無線により外部機器と通信接続するための通信装置２０７とを有する。また、情報処理装置１は、各種情報を一時記憶するＲＡＭ２０８と、ハードディスク装置２０９とを有する。また、コンピュータ２００内の各部（２０１～２０９）は、バス２１０に接続される。

ハードディスク装置２０９には、上記の実施形態で説明した機能構成（例えば入力部１０、計算処理部２０、機械学習モデル生成部３０、推定部５０および出力部６０）における各種の処理を実行するためのプログラム２１１が記憶される。また、ハードディスク装置２０９には、プログラム２１１が参照する各種データ２１２が記憶される。入力装置２０２は、例えば、操作者から操作情報の入力を受け付ける。モニタ２０３は、例えば、操作者が操作する各種画面を表示する。インタフェース装置２０６は、例えば印刷装置等が接続される。通信装置２０７は、ＬＡＮ（Local Area Network）等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。

ＣＰＵ２０１は、ハードディスク装置２０９に記憶されたプログラム２１１を読み出して、ＲＡＭ２０８に展開して実行することで、上記の機能構成（例えば入力部１０、計算処理部２０、機械学習モデル生成部３０、推定部５０および出力部６０）に関する各種の処理を行う。なお、プログラム２１１は、ハードディスク装置２０９に記憶されていなくてもよい。例えば、コンピュータ２００が読み取り可能な記憶媒体に記憶されたプログラム２１１を読み出して実行するようにしてもよい。コンピュータ２００が読み取り可能な記憶媒体は、例えば、ＣＤ－ＲＯＭやＤＶＤディスク、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ等に接続された装置にこのプログラム２１１を記憶させておき、コンピュータ２００がこれらからプログラム２１１を読み出して実行するようにしてもよい。

以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）対象文書より分割した各トークンの第１のアテンションスコアをトークン列について並列に算出し、
算出した前記各トークンの第１のアテンションスコアに基づいて各トークンのカバレッジスコアを算出し、
算出した前記各トークンのカバレッジスコアをもとに各トークンの第２のアテンションスコアを前記トークン列について並列に算出し、
算出した前記各トークンの第２のアテンションスコアに基づいて、前記トークンごとに、前記対象文書からの要約文に当該トークンを含める確率を算出する、
処理をコンピュータに実行させることを特徴とする機械学習プログラム。

（付記２）前記カバレッジスコアを算出する処理は、前記トークン列について並列に算出したトークンごとの前記第１のアテンションスコアの総和により前記カバレッジスコアを算出する、
ことを特徴とする付記１に記載の機械学習プログラム。

（付記３）前記トークンごとに算出した確率を用いて、前記対象文書の要約文に含まれるトークンを正解として機械学習モデルの機械学習を実行する処理をさらにコンピュータに実行させる、
ことを特徴とする付記１または２に記載の機械学習プログラム。

（付記４）対象文書より分割した各トークンの第１のアテンションスコアをトークン列について並列に算出し、
算出した前記各トークンの第１のアテンションスコアに基づいて各トークンのカバレッジスコアを算出し、
算出した前記各トークンのカバレッジスコアをもとに各トークンの第２のアテンションスコアを前記トークン列について並列に算出し、
算出した前記各トークンの第２のアテンションスコアに基づいて、前記トークンごとに、前記対象文書からの要約文に当該トークンを含める確率を算出する、
処理をコンピュータが実行することを特徴とする機械学習方法。

（付記５）前記カバレッジスコアを算出する処理は、前記トークン列について並列に算出したトークンごとの前記第１のアテンションスコアの総和により前記カバレッジスコアを算出する、
ことを特徴とする付記４に記載の機械学習方法。

（付記６）前記トークンごとに算出した確率を用いて、前記対象文書の要約文に含まれるトークンを正解として機械学習モデルの機械学習を実行する処理をさらにコンピュータが実行する、
ことを特徴とする付記４または５に記載の機械学習方法。

（付記７）対象文書より分割した各トークンの第１のアテンションスコアをトークン列について並列に算出し、
算出した前記各トークンの第１のアテンションスコアに基づいて各トークンのカバレッジスコアを算出し、
算出した前記各トークンのカバレッジスコアをもとに各トークンの第２のアテンションスコアを前記トークン列について並列に算出し、
算出した前記各トークンの第２のアテンションスコアに基づいて、前記トークンごとに、前記対象文書からの要約文に当該トークンを含める確率を算出する、
処理を実行する制御部を有することを特徴とする情報処理装置。

（付記８）前記カバレッジスコアを算出する処理は、前記トークン列について並列に算出したトークンごとの前記第１のアテンションスコアの総和により前記カバレッジスコアを算出する、
ことを特徴とする付記７に記載の情報処理装置。

（付記９）前記トークンごとに算出した確率を用いて、前記対象文書の要約文に含まれるトークンを正解として機械学習モデルの機械学習を実行する処理をさらに制御部が実行する、
ことを特徴とする付記７または８に記載の情報処理装置。

１…情報処理装置
１０…入力部
１１…学習事例
１２…入力記事
２０…計算処理部
２１…第１アテンション計算部
２２…カバレッジ計算部
２３…第２アテンション計算部
２４…単語生成確率計算部
３０…機械学習モデル生成部
４０…記憶部
４１…機械学習モデル
５０…推定部
６０…出力部
２００…コンピュータ
２０１…ＣＰＵ
２０２…入力装置
２０３…モニタ
２０４…スピーカー
２０５…媒体読取装置
２０６…インタフェース装置
２０７…通信装置
２０８…ＲＡＭ
２０９…ハードディスク装置
２１０…バス
２１１…プログラム
２１２…各種データ
Ｔ１～Ｔ４…トークン

Claims

対象文書より分割した各トークンの第１のアテンションスコアをトークン列について並列に算出し、
算出した前記各トークンの第１のアテンションスコアに基づいて各トークンのカバレッジスコアを算出し、
算出した前記各トークンのカバレッジスコアをもとに各トークンの第２のアテンションスコアを前記トークン列について並列に算出し、
算出した前記各トークンの第２のアテンションスコアに基づいて、前記トークンごとに、前記対象文書からの要約文に当該トークンを含める確率を算出する、
処理をコンピュータに実行させることを特徴とする機械学習プログラム。
前記カバレッジスコアを算出する処理は、前記トークン列について並列に算出したトークンごとの前記第１のアテンションスコアの総和により前記カバレッジスコアを算出する、
ことを特徴とする請求項１に記載の機械学習プログラム。
前記トークンごとに算出した確率を用いて、前記対象文書の要約文に含まれるトークンを正解として機械学習モデルの機械学習を実行する処理をさらにコンピュータに実行させる、
ことを特徴とする請求項１または２に記載の機械学習プログラム。
対象文書より分割した各トークンの第１のアテンションスコアをトークン列について並列に算出し、
算出した前記各トークンの第１のアテンションスコアに基づいて各トークンのカバレッジスコアを算出し、
算出した前記各トークンのカバレッジスコアをもとに各トークンの第２のアテンションスコアを前記トークン列について並列に算出し、
算出した前記各トークンの第２のアテンションスコアに基づいて、前記トークンごとに、前記対象文書からの要約文に当該トークンを含める確率を算出する、
処理をコンピュータが実行することを特徴とする機械学習方法。
対象文書より分割した各トークンの第１のアテンションスコアをトークン列について並列に算出し、
算出した前記各トークンの第１のアテンションスコアに基づいて各トークンのカバレッジスコアを算出し、
算出した前記各トークンのカバレッジスコアをもとに各トークンの第２のアテンションスコアを前記トークン列について並列に算出し、
算出した前記各トークンの第２のアテンションスコアに基づいて、前記トークンごとに、前記対象文書からの要約文に当該トークンを含める確率を算出する、
処理を実行する制御部を有することを特徴とする情報処理装置。