JP2022152367A - 機械学習プログラム、機械学習方法および情報処理装置 - Google Patents
機械学習プログラム、機械学習方法および情報処理装置 Download PDFInfo
- Publication number
- JP2022152367A JP2022152367A JP2021055116A JP2021055116A JP2022152367A JP 2022152367 A JP2022152367 A JP 2022152367A JP 2021055116 A JP2021055116 A JP 2021055116A JP 2021055116 A JP2021055116 A JP 2021055116A JP 2022152367 A JP2022152367 A JP 2022152367A
- Authority
- JP
- Japan
- Prior art keywords
- token
- attention
- machine learning
- score
- calculated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
【課題】要約精度を向上させる。【解決手段】機械学習プログラムは、対象文書より分割した各トークンの第1のアテンションスコアをトークン列について並列に算出する処理をコンピュータに実行させる。また、機械学習プログラムは、算出した各トークンの第1のアテンションスコアに基づいて各トークンのカバレッジスコアを算出する処理をコンピュータに実行させる。また、機械学習プログラムは、算出した各トークンのカバレッジスコアをもとに各トークンの第2のアテンションスコアをトークン列について並列に算出する処理をコンピュータに実行させる。また、機械学習プログラムは、算出した各トークンの第2のアテンションスコアに基づいて、トークンごとに、対象文書からの要約文にトークンを含める確率を算出する処理をコンピュータに実行させる。【選択図】図1
Description
本発明の実施形態は、機械学習プログラム、機械学習方法および情報処理装置に関する。
従来、ニューラルネットワークなどの機械学習モデルを利用して新聞やWebサイトなどの文書から要約文を作成する自動要約が知られている。この要約文を作成するための機械学習モデルとしては、カバレッジ(原文書で同じ単語に何度も高いアテンション確率(アテンションスコアとも呼ぶ)を与えないための仕組み)を考慮したLSTM(Long Short-Term Memory)に基づく要約モデルがある。
また、近年における要約の精度が高い機械学習モデルとして、Transformerに基づく要約モデルが知られている。このTransformerに基づく要約モデルでは、学習時に時間方向(正解の要約の単語(トークン)列)に対して並列に計算が可能であり、LSTMと比較して処理を高速に行うことができる。
Get To The Point: Summarization with Pointer-Generator Networks , ACL2017
The Illustrated Transformer - Jay Alammar - Visualizing machine learning one concept at a time.[2021/3/10検索]、インターネット<URL:http://jalammar.github.io/illustrated-transformer/>
秋山 和輝, 田村 晃裕, 二宮 崇, 大林 弘明. "Coverageを考慮したBERTSUMによる生成型自動要約", 言語処理学会 第26回年次大会 発表論文集, pp.449-452, March 2020.
しかしながら、Transformerに基づく要約モデルでは、カバレッジを考慮しておらず、例えば単語の繰り返し生成が行われるような精度劣化が生じるという問題がある。
例えば、Transformerに基づく要約モデルでは、学習時に時間方向に対して並列に計算を行い、正解とする要約のトークンの生成確率(および各トークンのアテンションスコア)は並列に計算される。カバレッジは、学習時における時間方向で過去の時刻のアテンションスコアの総和であるので、並列に計算するTransformerではカバレッジを利用できない。
1つの側面では、要約精度を向上することができる機械学習プログラム、機械学習方法および情報処理装置を提供することを目的とする。
1つの案では、機械学習プログラムは、対象文書より分割した各トークンの第1のアテンションスコアをトークン列について並列に算出する処理をコンピュータに実行させる。また、機械学習プログラムは、算出した各トークンの第1のアテンションスコアに基づいて各トークンのカバレッジスコアを算出する処理をコンピュータに実行させる。また、機械学習プログラムは、算出した各トークンのカバレッジスコアをもとに各トークンの第2のアテンションスコアをトークン列について並列に算出する処理をコンピュータに実行させる。また、機械学習プログラムは、算出した各トークンの第2のアテンションスコアに基づいて、トークンごとに、対象文書からの要約文にトークンを含める確率を算出する処理をコンピュータに実行させる。
要約精度を向上することができる。
以下、図面を参照して、実施形態にかかる機械学習プログラム、機械学習方法および情報処理装置を説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する機械学習プログラム、機械学習方法および情報処理装置は、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。
図1は、実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図1に示すように、情報処理装置1は、入力記事と、この入力記事に対する正解の要約文がペアとなっている学習事例11より要約文を生成する機械学習モデル41の機械学習を行う。そして、情報処理装置1は、学習済みの機械学習モデル41を用いて入力記事12に対する要約文を生成する。
情報処理装置1が用いる機械学習モデル41は、Transformerに基づく要約モデルである。情報処理装置1は、Transformerに基づく機械学習モデル41の学習時において、時間方向(正解の要約の単語(トークン)列)に対して並列に計算が可能とする並列性を損なわずにカバレッジを考慮したアテンション確率を計算する。
具体的には、情報処理装置1は、対象文書の一例である学習事例11の入力記事の各トークンについて2段階に分けてアテンション確率の計算を実施する。まず、情報処理装置1は、各トークンについて、1段階目はカバレッジを考慮せずにアテンション確率を計算する。次いで、情報処理装置1は、各トークンについて1段階目に計算されたアテンション確率に基づいてカバレッジを近似的に計算する。次いで、情報処理装置1は、各トークンについて、2段階目は計算されたカバレッジを考慮してアテンション確率を計算する。次いで、情報処理装置1は、各トークンについて、2段階目に計算されたアテンション確率に基づいて要約文にトークンを含める生成確率を計算する。
このように、情報処理装置1は、カバレッジをもとに算出したアテンション確率に基づいて、トークンごとに、要約文にトークンを含める生成確率を計算するので、カバレッジ損失を追加して機械学習モデル41の機械学習を行うことができ、要約精度のさらなる改善が期待できる。例えば、カバレッジ損失を追加した機械学習による機械学習モデル41を用いた自動要約では、トークンの繰り返し生成が行われるようなことを抑止でき、精度のよい要約文を生成できる。
具体的には、情報処理装置1は、入力部10、計算処理部20、機械学習モデル生成部30、記憶部40、推定部50および出力部60を有する。
入力部10は、外部機器との通信、半導体メモリなどの記憶媒体からのデータの読み出しなどにより各種情報の入力を受け付け、受け付けたデータに対する前処理を行う処理部である。入力部10は、例えば要約文を作成するための機械学習モデルの生成(学習)に関する学習事例11または要約文の作成対象とする入力記事12のデータを受け付ける。入力部10は、受け付けた学習事例11または入力記事12のデータについて、公知の文書解析処理により単語(トークン)への分割を行う。
計算処理部20は、学習事例11を用いた機械学習モデル41の学習時における計算処理を行う処理部である。計算処理部20は、第1アテンション計算部21、カバレッジ計算部22、第2アテンション計算部23および単語生成確率計算部24を有する。
第1アテンション計算部21は、学習事例11より分割した各トークンにおける要約時の注目度を示すアテンションスコア(第1のアテンション確率)を、Transformerにおける公知の手法によりトークン列について並列に算出する。例えば、第1アテンション計算部21における各トークンの第1のアテンション確率の計算は、次の式(1)のとおりになる。
式(1)において、qはQuery、kはKey、vはValueを示す。stは、要約の時刻(t)の隠れ状態(ベクトル)を示す。hiは、入力テキストのi番目の単語(トークン)の隠れ状態を示す。W*は、Transformerのパラメータ(*はq、k、vのいずれか)を示す。dは、stの次元を示す。at,iは、時刻(t)におけるi番目の単語(トークン)のアテンション確率(アテンションスコア)を示す。
図2は、第1のアテンション確率の計算例を説明する説明図である。図2に示すように、第1アテンション計算部21は、式(1)により、「空」「が」「とても」「青い」…のトークンT1、T2、T3、T4…における時刻(1、2、3、…)ごとの第1のアテンション確率(a1、a2、a3…)を計算する。
例えば、時刻(1)におけるアテンション確率は、トークンT1の「空」は0.7である。トークンT2の「が」は0.1である。トークンT3の「とても」は0.1である。トークンT4の「青い」は0.1である。よって、正解の要約の単語(トークン)列における時刻(1)で最もアテンション確率が高いトークンは、トークンT1の「空」となる。
同様に、時刻(2)におけるアテンション確率は、トークンT1の「空」は0.2、トークンT2の「が」は0.6、トークンT3の「とても」は0.1、トークンT4の「青い」は0.1である。このため、時刻(2)で最もアテンション確率が高いトークンは、トークンT2の「が」となる。
また、時刻(3)におけるアテンション確率は、トークンT1の「空」は0.、トークンT2の「が」は0.、トークンT3の「とても」は0.4、トークンT4の「青い」は0.3である。このため、時刻(3)で最もアテンション確率が高いトークンは、トークンT2の「とても」となる。
カバレッジ計算部22は、第1アテンション計算部21が算出した算出した各トークンの第1のアテンション確率に基づいて各トークンのカバレッジスコアを算出する。具体的には、カバレッジ計算部22は、時刻(t)におけるi番目の単語(トークン)のガバレッジスコアをct,iとすると、at,iの時刻(t-1)までの総和としてct,iを計算する。
図3は、カバレッジの計算例を説明する説明図である。図3に示すように、カバレッジ計算部22は、各トークンについて、前の時刻までのアテンション確率の総和によりガバレッジスコアを計算する。
例えば、トークンT1の「空」について、時刻(1)のガバレッジスコア(c1)は0である。次いで、時刻(2)のガバレッジスコア(c2)は、前の時刻までのアテンション確率(a1)の総和により、0.7となる。次いで、時刻(3)のガバレッジスコア(c3)は、前の時刻までのアテンション確率(a1、a2)の総和(0.7+0.2)により、0.9となる。
第2アテンション計算部23は、カバレッジ計算部22が算出した各トークンのカバレッジスコアをもとに、Transformerにおける公知の手法を適用して、各トークンの第2のアテンション確率をトークン列について並列に算出する。例えば、第2アテンション計算部23における各トークンの第2のアテンション確率の計算は、次の式(2)のとおりになる。
式(2)において、wcは、カバレッジに対するパラメータである。式(2)のとおり、第2のアテンション確率(at,i)の計算は、カバレッジスコアに関する項(wcct,i)を含む、カバレッジを考慮したものとなる。
図4は、第2のアテンション確率の計算例を説明する説明図である。図4に示すように、第2アテンション計算部23は、式(2)により、「空」「が」「とても」「青い」…のトークンT1、T2、T3、T4…における時刻(1、2、3、…)ごとの第2のアテンション確率(a1、a2、a3…)をカバレッジスコア(c1、c2、c3)をもとに計算する。
例えば、時刻(2)におけるアテンション確率は、トークンT1の「空」は0.1、トークンT2の「が」は0.7、トークンT3の「とても」は0.1、トークンT4の「青い」は0.1である。図2における第1のアテンション確率と比較すると、図4における第2のアテンション確率は、トークンT1が0.2から0.1に、トークンT2の0.6が0.7に改められている。
また、時刻(3)におけるアテンション確率は、トークンT1の「空」は0.、トークンT2の「が」は0.、トークンT3の「とても」は0.5、トークンT4の「青い」は0.5である。図2における第1のアテンション確率と比較すると、図4における第2のアテンション確率は、トークンT3が0.4から0.5に、トークンT4の0.3が0.5に改められている。
単語生成確率計算部24は、第2アテンション計算部23が算出した各トークン(単語)の第2のアテンション確率に基づいて、トークンごとに、学習事例11の入力記事から要約文にトークンを含める生成確率を算出する。なお、単語生成確率計算部24がトークンごとの生成確率を求める際には、第2のアテンション確率の他に、他の隠れ状態(パラメータ)を用いてもよい。
具体的には、単語生成確率計算部24は、各トークン(単語)の第2のアテンション確率および他の隠れ状態より、「空」、「が」、「青い」などのトークンを並べて要約文とする場合の、各トークンの条件付き生成確率(p)を求める。これにより、計算処理部20では、最も確率が高くなるトークンの並びを要約文とすることができる。
例えば、単語生成確率計算部24は、時刻ごとのp(空|BOS)、p(が|空,BOS)、p(青い|空,が,BOS)…を求める。これにより、計算処理部20では、時刻ごとの各トークンの生成確率の分布より、「空」、「が」、「青い」と並べる要約文を得ることができる。なお、BOSは要約の先頭を表す記号とする。
機械学習モデル生成部30は、計算処理部20の算出結果および学習事例11に含まれる正解の要約文をもとに、機械学習モデル41を生成する処理部である。具体的には、機械学習モデル生成部30は、計算処理部20の算出結果における要約文が正解とする要約文となるように機械学習モデル41のパラメータを計算する。一例として、機械学習モデル生成部30は、正解の要約文による負の生成確率およびカバレッジの損失を損失関数として逆誤差伝搬法により勾配を計算し、計算した勾配に基づいて機械学習モデル41のパラメータを設定(学習)する。
記憶部40は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、ハードディスクや光ディスク等の記憶装置によって実現される。記憶部40は、機械学習モデル生成部30が生成した機械学習モデル41に関するパラメータ等のデータを格納する。
推定部50は、記憶部40に格納された学習済みの機械学習モデル41をもとに、入力記事12に対する要約文を推定する処理部である。
具体的には、推定部50は、記憶部40より読み出したパラメータをもとに機械学習モデル41を構築する。次いで、推定部50は、構築した機械学習モデル41に入力記事12より分割した各トークンを入力することで機械学習モデル41の出力として、時刻ごとの各トークンの生成確率の分布を得る。
ここで、推定部50は、時刻が2以上である場合、カバレッジ計算部22と同様に過去のアテンション確率を用いてカバレッジスコアの計算を行う。次いで、推定部50は、第2アテンション計算部23と同様、計算したカバレッジスコアをもとにアテンション確率を計算する。
次いで、推定部50は、時刻ごとの各トークンの生成確率の分布をもとに、最も確率が高くなるトークンの並びの要約文を推定結果として得る。
出力部60は、推定部50の推定結果を出力する処理部である。具体的には、出力部60は、推定部50が推定した要約文を表示画面やファイルとして出力する。例えば、出力部60は、入力記事12と、入力記事12より推定部50が推定した要約文とを並べた表示画面を出力する。
図5は、実施形態にかかる情報処理装置1の動作例を示すフローチャートである。具体的には、図5は、学習事例11による機械学習モデル41の機械学習に関する情報処理装置1の処理手順を例示している。
図5に示すように、機械学習に関する処理が開始されると、入力部10は、学習事例11の入力を受け付け(S1)、学習事例11に含まれる入力記事を単語(トークン)に分割する。図6は、学習事例11の一例を説明する説明図である。図6に示すように、学習事例11には、入力記事と、この入力記事における正解の要約とがペアとして含まれる。
次いで、第1アテンション計算部21は、学習事例11に対して、入力記事より分割したトークンごとの1回目のアテンション確率(第1のアテンション確率)を式(1)のとおりに計算する(S2)。次いで、カバレッジ計算部22は、第1アテンション計算部21が算出した算出した各トークンの1回目のアテンション確率に基づいてカバレッジスコアの近似値を計算する(S3)。
次いで、第2アテンション計算部23は、学習事例11に対して、カバレッジを考慮して2回目のアテンション確率(第2のアテンション確率)を式(2)のとおりに計算する(S4)。
次いで、単語生成確率計算部24は、第2アテンション計算部23が算出した各単語の2回目のアテンション確率およびその他のパラメータ(隠れ状態)に基づいて各単語の生成確率を計算する(S5)。
次いで、機械学習モデル生成部30は、学習事例11に含まれる正解の要約による負の生成確率およびカバレッジの損失を損失関数として逆誤差伝搬法により勾配を計算する(S6)。次いで、機械学習モデル生成部30は、計算した勾配に基づいて機械学習モデル41のパラメータを学習する(S7)。情報処理装置1では、複数の学習事例11に対してS1~S7の処理を繰り返し、複数の学習事例11に対応する機械学習モデル41のパラメータを学習する。
次いで、機械学習モデル生成部30は、学習事例11による学習済みの機械学習モデル41のパラメータを記憶部40に格納し(S8)、処理を終了する。
図7は、実施形態にかかる情報処理装置1の動作例を示すフローチャートである。具体的には、図7は、入力記事12に対する要約文の推定に関する情報処理装置1の処理手順を例示している。
図7に示すように、推定に関する処理が開始されると、入力部10は、入力記事12の入力を受け付け(S11)、入力記事12を単語(トークン)に分割する。
次いで、推定部50は、記憶部40より読み出したパラメータをもとに機械学習モデル41を構築する(S12)。次いで、推定部50は、入力記事12より分割した各単語を構築した機械学習モデル41に入力し、時刻ごとに要約文に用いる単語を得るループ処理(S13~S19)を実行する。
具体的には、推定部50は、もし時刻が2以上である場合、カバレッジ計算部22と同様に過去のアテンション確率を用いてカバレッジスコアを計算する(S14)。
次いで、推定部50は、現在の時刻の要約側の隠れ状態と、原文書(入力記事12)側の各単語の隠れ状態との間のアテンション確率を計算する(S15)。ここで、推定部50は、もし時刻が2以上である場合、第2アテンション計算部23と同様、計算したカバレッジスコアをもとにアテンション確率を計算する。
次いで、推定部50は、アテンション確率およびその他の隠れ状態(パラメータ)に基づいて、各単語の生成確率を計算する(S16)。次いで、推定部50は、確率が最大となる単語を出力し(S17)、終端を表す単語を出力した場合は繰り返し(ループ処理)を終了する(S18)。推定部50は、S17において終端を表す単語を出力していない場合、S13へ処理を戻し、ループ処理を継続する。
出力部60は、推定部50におけるループ処理により得られた単語を並べた要約結果を出力し(S20)、処理を終了する。
以上のように、情報処理装置1の第1アテンション計算部21は、対象文書より分割した各トークンの第1のアテンションスコアをトークン列について並列に算出する。情報処理装置1のカバレッジ計算部22は、算出した各トークンの第1のアテンションスコアに基づいて各トークンのカバレッジスコアを算出する。情報処理装置1の第2アテンション計算部23は、算出した各トークンのカバレッジスコアをもとに各トークンの第2のアテンションスコアをトークン列について並列に算出する。情報処理装置1の単語生成確率計算部24は、算出した各トークンの第2のアテンションスコアに基づいて、トークンごとに、対象文書からの要約文にトークンを含める確率(生成確率)を算出する。
このように、情報処理装置1は、カバレッジスコアをもとに算出したアテンションスコアに基づいて、トークンごとに、対象文書からの要約文にトークンを含める確率を算出するので、要約精度を向上することができる。例えば、情報処理装置1では、対象文書から単語(トークン)の繰り返し生成が行われるようなことを抑止できる。また、情報処理装置1では、アテンションスコアをトークン列について並列に算出するので、LSTMと比較して処理を高速に行うことができる。
また、情報処理装置1のカバレッジ計算部22は、トークン列について並列に算出したトークンごとの第1のアテンションスコアの総和によりカバレッジスコアを算出する。これにより、情報処理装置1では、第1のアテンションスコアからトークンごとのカバレッジスコアを得ることができる。
また、情報処理装置1は、トークンごとに算出した確率を用いて、対象文書の要約文に含まれるトークンを正解として機械学習モデルの機械学習を実行する機械学習モデル生成部30を有する。これにより、情報処理装置1は、カバレッジを考慮した精度のよい機械学習モデルを生成することができる。
なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、情報処理装置1の入力部10、計算処理部20、機械学習モデル生成部30、推定部50および出力部60の各種処理機能は、制御部の一例としてのCPU(またはMPU、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、情報処理装置1で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。
ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施形態と同様の機能を有するプログラムを実行するコンピュータ構成(ハードウエア)の一例を説明する。図8は、コンピュータ構成の一例を説明する説明図である。
図8に示すように、コンピュータ200は、各種演算処理を実行するCPU201と、データ入力を受け付ける入力装置202と、モニタ203と、スピーカー204とを有する。また、コンピュータ200は、記憶媒体からプログラム等を読み取る媒体読取装置205と、各種装置と接続するためのインタフェース装置206と、有線または無線により外部機器と通信接続するための通信装置207とを有する。また、情報処理装置1は、各種情報を一時記憶するRAM208と、ハードディスク装置209とを有する。また、コンピュータ200内の各部(201~209)は、バス210に接続される。
ハードディスク装置209には、上記の実施形態で説明した機能構成(例えば入力部10、計算処理部20、機械学習モデル生成部30、推定部50および出力部60)における各種の処理を実行するためのプログラム211が記憶される。また、ハードディスク装置209には、プログラム211が参照する各種データ212が記憶される。入力装置202は、例えば、操作者から操作情報の入力を受け付ける。モニタ203は、例えば、操作者が操作する各種画面を表示する。インタフェース装置206は、例えば印刷装置等が接続される。通信装置207は、LAN(Local Area Network)等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。
CPU201は、ハードディスク装置209に記憶されたプログラム211を読み出して、RAM208に展開して実行することで、上記の機能構成(例えば入力部10、計算処理部20、機械学習モデル生成部30、推定部50および出力部60)に関する各種の処理を行う。なお、プログラム211は、ハードディスク装置209に記憶されていなくてもよい。例えば、コンピュータ200が読み取り可能な記憶媒体に記憶されたプログラム211を読み出して実行するようにしてもよい。コンピュータ200が読み取り可能な記憶媒体は、例えば、CD-ROMやDVDディスク、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にこのプログラム211を記憶させておき、コンピュータ200がこれらからプログラム211を読み出して実行するようにしてもよい。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)対象文書より分割した各トークンの第1のアテンションスコアをトークン列について並列に算出し、
算出した前記各トークンの第1のアテンションスコアに基づいて各トークンのカバレッジスコアを算出し、
算出した前記各トークンのカバレッジスコアをもとに各トークンの第2のアテンションスコアを前記トークン列について並列に算出し、
算出した前記各トークンの第2のアテンションスコアに基づいて、前記トークンごとに、前記対象文書からの要約文に当該トークンを含める確率を算出する、
処理をコンピュータに実行させることを特徴とする機械学習プログラム。
算出した前記各トークンの第1のアテンションスコアに基づいて各トークンのカバレッジスコアを算出し、
算出した前記各トークンのカバレッジスコアをもとに各トークンの第2のアテンションスコアを前記トークン列について並列に算出し、
算出した前記各トークンの第2のアテンションスコアに基づいて、前記トークンごとに、前記対象文書からの要約文に当該トークンを含める確率を算出する、
処理をコンピュータに実行させることを特徴とする機械学習プログラム。
(付記2)前記カバレッジスコアを算出する処理は、前記トークン列について並列に算出したトークンごとの前記第1のアテンションスコアの総和により前記カバレッジスコアを算出する、
ことを特徴とする付記1に記載の機械学習プログラム。
ことを特徴とする付記1に記載の機械学習プログラム。
(付記3)前記トークンごとに算出した確率を用いて、前記対象文書の要約文に含まれるトークンを正解として機械学習モデルの機械学習を実行する処理をさらにコンピュータに実行させる、
ことを特徴とする付記1または2に記載の機械学習プログラム。
ことを特徴とする付記1または2に記載の機械学習プログラム。
(付記4)対象文書より分割した各トークンの第1のアテンションスコアをトークン列について並列に算出し、
算出した前記各トークンの第1のアテンションスコアに基づいて各トークンのカバレッジスコアを算出し、
算出した前記各トークンのカバレッジスコアをもとに各トークンの第2のアテンションスコアを前記トークン列について並列に算出し、
算出した前記各トークンの第2のアテンションスコアに基づいて、前記トークンごとに、前記対象文書からの要約文に当該トークンを含める確率を算出する、
処理をコンピュータが実行することを特徴とする機械学習方法。
算出した前記各トークンの第1のアテンションスコアに基づいて各トークンのカバレッジスコアを算出し、
算出した前記各トークンのカバレッジスコアをもとに各トークンの第2のアテンションスコアを前記トークン列について並列に算出し、
算出した前記各トークンの第2のアテンションスコアに基づいて、前記トークンごとに、前記対象文書からの要約文に当該トークンを含める確率を算出する、
処理をコンピュータが実行することを特徴とする機械学習方法。
(付記5)前記カバレッジスコアを算出する処理は、前記トークン列について並列に算出したトークンごとの前記第1のアテンションスコアの総和により前記カバレッジスコアを算出する、
ことを特徴とする付記4に記載の機械学習方法。
ことを特徴とする付記4に記載の機械学習方法。
(付記6)前記トークンごとに算出した確率を用いて、前記対象文書の要約文に含まれるトークンを正解として機械学習モデルの機械学習を実行する処理をさらにコンピュータが実行する、
ことを特徴とする付記4または5に記載の機械学習方法。
ことを特徴とする付記4または5に記載の機械学習方法。
(付記7)対象文書より分割した各トークンの第1のアテンションスコアをトークン列について並列に算出し、
算出した前記各トークンの第1のアテンションスコアに基づいて各トークンのカバレッジスコアを算出し、
算出した前記各トークンのカバレッジスコアをもとに各トークンの第2のアテンションスコアを前記トークン列について並列に算出し、
算出した前記各トークンの第2のアテンションスコアに基づいて、前記トークンごとに、前記対象文書からの要約文に当該トークンを含める確率を算出する、
処理を実行する制御部を有することを特徴とする情報処理装置。
算出した前記各トークンの第1のアテンションスコアに基づいて各トークンのカバレッジスコアを算出し、
算出した前記各トークンのカバレッジスコアをもとに各トークンの第2のアテンションスコアを前記トークン列について並列に算出し、
算出した前記各トークンの第2のアテンションスコアに基づいて、前記トークンごとに、前記対象文書からの要約文に当該トークンを含める確率を算出する、
処理を実行する制御部を有することを特徴とする情報処理装置。
(付記8)前記カバレッジスコアを算出する処理は、前記トークン列について並列に算出したトークンごとの前記第1のアテンションスコアの総和により前記カバレッジスコアを算出する、
ことを特徴とする付記7に記載の情報処理装置。
ことを特徴とする付記7に記載の情報処理装置。
(付記9)前記トークンごとに算出した確率を用いて、前記対象文書の要約文に含まれるトークンを正解として機械学習モデルの機械学習を実行する処理をさらに制御部が実行する、
ことを特徴とする付記7または8に記載の情報処理装置。
ことを特徴とする付記7または8に記載の情報処理装置。
1…情報処理装置
10…入力部
11…学習事例
12…入力記事
20…計算処理部
21…第1アテンション計算部
22…カバレッジ計算部
23…第2アテンション計算部
24…単語生成確率計算部
30…機械学習モデル生成部
40…記憶部
41…機械学習モデル
50…推定部
60…出力部
200…コンピュータ
201…CPU
202…入力装置
203…モニタ
204…スピーカー
205…媒体読取装置
206…インタフェース装置
207…通信装置
208…RAM
209…ハードディスク装置
210…バス
211…プログラム
212…各種データ
T1~T4…トークン
10…入力部
11…学習事例
12…入力記事
20…計算処理部
21…第1アテンション計算部
22…カバレッジ計算部
23…第2アテンション計算部
24…単語生成確率計算部
30…機械学習モデル生成部
40…記憶部
41…機械学習モデル
50…推定部
60…出力部
200…コンピュータ
201…CPU
202…入力装置
203…モニタ
204…スピーカー
205…媒体読取装置
206…インタフェース装置
207…通信装置
208…RAM
209…ハードディスク装置
210…バス
211…プログラム
212…各種データ
T1~T4…トークン
Claims (5)
- 対象文書より分割した各トークンの第1のアテンションスコアをトークン列について並列に算出し、
算出した前記各トークンの第1のアテンションスコアに基づいて各トークンのカバレッジスコアを算出し、
算出した前記各トークンのカバレッジスコアをもとに各トークンの第2のアテンションスコアを前記トークン列について並列に算出し、
算出した前記各トークンの第2のアテンションスコアに基づいて、前記トークンごとに、前記対象文書からの要約文に当該トークンを含める確率を算出する、
処理をコンピュータに実行させることを特徴とする機械学習プログラム。 - 前記カバレッジスコアを算出する処理は、前記トークン列について並列に算出したトークンごとの前記第1のアテンションスコアの総和により前記カバレッジスコアを算出する、
ことを特徴とする請求項1に記載の機械学習プログラム。 - 前記トークンごとに算出した確率を用いて、前記対象文書の要約文に含まれるトークンを正解として機械学習モデルの機械学習を実行する処理をさらにコンピュータに実行させる、
ことを特徴とする請求項1または2に記載の機械学習プログラム。 - 対象文書より分割した各トークンの第1のアテンションスコアをトークン列について並列に算出し、
算出した前記各トークンの第1のアテンションスコアに基づいて各トークンのカバレッジスコアを算出し、
算出した前記各トークンのカバレッジスコアをもとに各トークンの第2のアテンションスコアを前記トークン列について並列に算出し、
算出した前記各トークンの第2のアテンションスコアに基づいて、前記トークンごとに、前記対象文書からの要約文に当該トークンを含める確率を算出する、
処理をコンピュータが実行することを特徴とする機械学習方法。 - 対象文書より分割した各トークンの第1のアテンションスコアをトークン列について並列に算出し、
算出した前記各トークンの第1のアテンションスコアに基づいて各トークンのカバレッジスコアを算出し、
算出した前記各トークンのカバレッジスコアをもとに各トークンの第2のアテンションスコアを前記トークン列について並列に算出し、
算出した前記各トークンの第2のアテンションスコアに基づいて、前記トークンごとに、前記対象文書からの要約文に当該トークンを含める確率を算出する、
処理を実行する制御部を有することを特徴とする情報処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021055116A JP2022152367A (ja) | 2021-03-29 | 2021-03-29 | 機械学習プログラム、機械学習方法および情報処理装置 |
US17/589,555 US20220309244A1 (en) | 2021-03-29 | 2022-01-31 | Computer-readable recording medium storing machine learning program, machine learning method, and information processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021055116A JP2022152367A (ja) | 2021-03-29 | 2021-03-29 | 機械学習プログラム、機械学習方法および情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022152367A true JP2022152367A (ja) | 2022-10-12 |
Family
ID=83364807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021055116A Pending JP2022152367A (ja) | 2021-03-29 | 2021-03-29 | 機械学習プログラム、機械学習方法および情報処理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220309244A1 (ja) |
JP (1) | JP2022152367A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230252225A1 (en) * | 2022-02-04 | 2023-08-10 | Babylon Partners Limited | Automatic Text Summarisation Post-processing for Removal of Erroneous Sentences |
-
2021
- 2021-03-29 JP JP2021055116A patent/JP2022152367A/ja active Pending
-
2022
- 2022-01-31 US US17/589,555 patent/US20220309244A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220309244A1 (en) | 2022-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108630190B (zh) | 用于生成语音合成模型的方法和装置 | |
US11157818B2 (en) | Model training method and apparatus based on gradient boosting decision tree | |
US10170104B2 (en) | Electronic device, method and training method for natural language processing | |
CN109582956B (zh) | 应用于句子嵌入的文本表示方法和装置 | |
US10445654B2 (en) | Learning parameters in a feed forward probabilistic graphical model | |
TW202030640A (zh) | 一種跨模態訊息檢索方法、裝置和儲存介質 | |
WO2020224405A1 (zh) | 图像处理方法、装置、计算机可读介质及电子设备 | |
US11232263B2 (en) | Generating summary content using supervised sentential extractive summarization | |
CN109389072B (zh) | 数据处理方法和装置 | |
US20210216887A1 (en) | Knowledge graph alignment with entity expansion policy network | |
CN109688428B (zh) | 视频评论生成方法和装置 | |
WO2019154411A1 (zh) | 词向量更新方法和装置 | |
US20200334557A1 (en) | Chained influence scores for improving synthetic data generation | |
US20230071661A1 (en) | Method for training image editing model and method for editing image | |
US11604999B2 (en) | Learning device, learning method, and computer program product | |
US11977602B2 (en) | Domain generalized margin via meta-learning for deep face recognition | |
CN114612688B (zh) | 对抗样本生成方法、模型训练方法、处理方法及电子设备 | |
JP2022152367A (ja) | 機械学習プログラム、機械学習方法および情報処理装置 | |
US11842290B2 (en) | Using functions to annotate a syntax tree with real data used to generate an answer to a question | |
CN113470124B (zh) | 特效模型的训练方法及装置、特效生成方法及装置 | |
JP7099254B2 (ja) | 学習方法、学習プログラム及び学習装置 | |
JP7052438B2 (ja) | 学習データ生成方法、学習データ生成プログラムおよびデータ構造 | |
US10360509B2 (en) | Apparatus and method for generating an optimal set of choices | |
Li et al. | Antimode collapse generative adversarial networks | |
US20230091485A1 (en) | Risk prediction in agile projects |