JP7476578B2

JP7476578B2 - 学習装置及びプログラム

Info

Publication number: JP7476578B2
Application number: JP2020038858A
Authority: JP
Inventors: 竜示狩野; 友紀谷口; 智子大熊
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2024-05-01
Anticipated expiration: 2040-03-06
Also published as: JP2021140558A; CN113360535A; US20210279638A1

Description

本発明は、学習装置及びプログラムに関する。

教師データに基づいてモデルを機械学習する場合、教師データ精度がモデル精度に直接影響を与えるため、教師データの取り扱いが重要である。

特許文献１には、複数の教師データ要素それぞれに含まれる特徴候補に対して算出された重要度を用いて、複数の教師データ要素それぞれの情報量を算出し、複数の教師データ要素の中から機械学習に使用する教師データ要素を選択する技術が記載されている。

特許文献２には、予め設定された検証ルールに基づいて、入力値と出力値のペアが対応すると判定されたデータを新規学習データに追加する技術が記載されている。

特開２０１８－４５５５９号公報特開２０１９－１６０２５号公報

機械学習の精度を向上させるには、正しい入力と出力のペア（以下、これを「正例」という）の教師データを十分な量予め用意する必要があるが、大量のデータを必要とする機械学習モデル（例：深層学習）では、自動的に取得できるラベルデータを正しい入力と出力のペアとみなし学習することが多い（例えば、ニュース記事の本文と見出し）。但し、こうしたデータは、ノイズを多く含んでいる。本発明は、こうしたノイズを新たな教師データなしにフィルタリングするモデルを学習させることを可能にする。そして、前記フィルタリングによって、機械学習の精度を向上させる技術を提供することを目的とする。

本発明は、フィルタリング用の新たな教師データを用意することなく、データに含まれるノイズをフィルタリングするモデルを学習させる技術を提供することを目的とする。

請求項１に記載の発明は、入力と出力の複数ペアを入力する入力部と、プロセッサと、出力部と、を備え、前記プロセッサは、プログラムを実行することで、前記入力と出力のペアを正例として生成し、前記入力と出力の組み合わせが変更されたペアを負例として生成し、前記正例及び前記負例を用いてフィルタモデルを学習し、前記フィルタモデルを用いて、前記入力と出力のペアから誤ったペアを除去してフィルタリングする、学習装置である。

請求項２に記載の発明は、前記プロセッサは、さらに、前記フィルタリングされた入力と出力のペアを用いて、入力から出力を得るモデルを学習する、請求項１に記載の学習装置である。

請求項３に記載の発明は、前記プロセッサは、前記入力と出力のペアをランダムに入れ替えることで前記負例を生成する、請求項１，２のいずれかに記載の学習装置である。

請求項４に記載の発明は、前記プロセッサは、前記入力と出力間の類似度に基づいて前記負例を生成する、請求項１，２のいずれかに記載の学習装置である。

請求項５に記載の発明は、前記プロセッサは、学習済みの前記入力から出力を得るモデルの出力結果に基づき、前記フィルタモデルを強化学習する、請求項２に記載の学習装置である。

請求項６に記載の発明は、前記フィルタモデルは、入力と出力の正しいペアであるかの判定確率を用いる、請求項１－５のいずれかに記載の学習装置である。

請求項７に記載の発明は、前記フィルタモデルは、入力と出力の正しいペアであるかの判定確率から算出されるエントロピーを用いる、請求項１－５のいずれかに記載の学習装置である。

請求項８に記載の発明は、前記入力は本文データであり、前記出力は前記本文データの要約データである、請求項１－７のいずれかに記載の学習装置である。

請求項９に記載の発明は、前記入力は原文データであり、前記出力は前記原文データの翻訳文データである、請求項１－７のいずれかに記載の学習装置である。

請求項１０に記載の発明は、コンピュータに、入力と出力のペアを入力するステップと、前記入力と出力のペアを正例として生成し、前記入力と出力の組み合わせが変更されたペアを負例として生成するステップと、前記正例及び前記負例を用いてフィルタモデルを学習するステップと、前記フィルタモデルを用いて、前記入力と出力のペアから誤ったペアを除去してフィルタリングするステップと、を実行させるプログラムである。

請求項１，２，１０に記載の発明によれば、前記フィルタモデル用の教師データを予め用意することなく、機械学習の精度を向上させることができる。

請求項３，４に記載の発明によれば、さらに、比較的簡易な処理で負例を生成し得る。

請求項５に記載の発明によれば、さらに、機械学習の精度をより向上させることができる。

請求項６，７に記載の発明によれば、さらに、判定確率を用いて不適切なペアを除去し得る。

請求項８に記載の発明によれば、さらに、学習済のモデルを用いて本文から要約を作成できる。

請求項９に記載の発明によれば、さらに、学習済のモデルを用いて原文から翻訳文を作成できる。

実施形態の構成ブロック図である。実施形態の学習処理の機能ブロック図である。実施形態の正例の説明図である。実施形態の負例の説明図である。実施形態の処理フローチャートである。変形例の学習処理の機能ブロック図である。

以下、図面に基づき本発明の実施形態について、入力として本文、出力として当該本文の要約を出力する要約モデルの学習を例にとり説明する。

＜基本原理＞
まず、本実施形態の基本原理について説明する。

タイトルを要約とみなして、要約モデルを学習させる試みは、Rush（Alexander M. Rush, Sumit Chopra, and Jason Weston. A neural attention model for abstractive sentence summarization. In EMNLP 2015.）以降広く行われてきた。その多くはニュース記事のタイトルを利用しているが、それ以外にも、ソーシャルメディアの投稿、レビューサイトの投稿、メールのタイトル等、様々な媒体のテキストで応用されている。

しかし、タイトルが要約の教師データとして適切かどうかは度々疑問が呈されている。特にソーシャルメディア、レビューサイト、メール等の、不特定多数の人物が自由に執筆できる媒体においては，その質は担保されていない。Li等（Junjie Li, Haoran Li, and Chengqing Zong. Towards personalized review summarization via user-aware sequence network. In AAAI 2019.）はレビューサイトのデータに、Zhang等（Rui Zhang and Joel Tetreault. This email could save your life: Introducing the task of email subject line generation. In ACL 2019. ）はメールデータにおいて、要約として不適切なタイトルが多く存在している事を指摘している。

そこで、本実施形態では、要約の学習データからこうした不適切なデータをフィルタリングする。すなわち、Gregoire 等（Francis Gregoire and Philippe Langlais. Extracting parallel sentences with bidirectional recurrent neural networks to improve machine translation. In COLING 2018.）の手法を要約タスクに応用する。これは、翻訳タスクにおいて、Siamese Network を用いて、２言語のテキストから対応関係のある２文を抽出し、得られたデータを既存学習データに加える事で翻訳性能を向上させている。

本実施形態では、正しい本文とタイトルのペアを「正例」、誤ったペアを「負例」として、フィルタモデルを学習させる。誤ったペアである負例は、入力と出力のペアを変更することで取得し、例えばランダムサンプリングで取得する。本実施形態では、入力と出力のペアを変更することで負例を生成するので、別途、負例を新たに外部から取得する必要がない。学習済のフィルタモデルは、ペアを入力すると、そのペアが正しいペアである確率を出力する。

そして、学習済のフィルタモデルを使い、学習データの正例のみをフィルタリングする。フィルタリングに際しては、フィルタモデルの出力である確率を閾値と比較し、閾値以下の確率を有するペアを不適切なペアとして除去する。フィルタモデルは、学習データに含まれる正例であっても、負例と判定し得る。これにより、元の学習データに含まれるペアのうち、不適切なペアを除去し、適切なペアのみを残存せしめて教師データとし、要約モデルを学習する。

本実施形態は、元の学習データから生成された負例を用いてフィルタモデルを学習し、このフィルタモデルで元の学習データをフィルタリングすることで学習データから不適切なペアを除去し、要約モデルの学習精度を向上させるといえる。

以下、本実施形態について、より具体的に説明する。

＜構成＞
図１は、本実施形態における学習装置の構成ブロック図を示す。

学習装置は、コンピュータで構成され、プロセッサ１０、ＲＯＭ１２、ＲＡＭ１４、入力部１６、出力部１８、及びモデル記憶部２０を備える。

プロセッサ１０は、ＲＯＭ１２あるいはその他のプログラムメモリに記憶された処理プログラムを読み出し、ＲＡＭ１４を作業メモリとして用いて実行することで、フィルタリングタスク及び要約タスクを実現する。プロセッサ１０は、入力された学習データに基づき、学習データを正例、学習データから生成された誤ったペアを負例とし、正例と負例を結合して新たな学習データとし、フィルタモデルを学習する。そして、学習済のフィルタモデルを用いて元の学習データをフィルタリングし、フィルタ済の学習データを教師データとして要約モデルを学習する。すなわち、プロセッサ１０での学習処理は、以下の４段階に大別される。
（１）学習データから負例を作成し、正例と負例を結合して新たな学習データとする
（２）新たな学習データでフィルタモデルを学習する
（３）学習済のフィルタモデルで元の学習データをフィルタリングする
（４）フィルタ済の学習データを教師データとして要約モデルを学習する

また、プロセッサ１０が利用するモデルは、以下の２つのモデルである。
（Ａ）フィルタモデル
（Ｂ）要約モデル

学習済の要約モデルは、本文が入力されるとその要約を作成して出力する。

入力部１６は、キーボードや通信インターフェイス等で構成され、学習データを入力する。学習データは、基本的にはテキストデータであるが、画像データであってもよい。画像データの場合、ＯＣＲ（Optical Character Recognition）技術を用いてテキストデータに変換する。学習データには、ニュース記事、ソーシャルメディアの投稿、レビューサイト等の投稿、メールデータ等が含まれる。

出力部１８は、ディスプレイや通信インターフェイス等で構成され、プロセッサ１０での要約タスクの結果、すなわち本文から作成された要約を出力する。

モデル記憶部２０は、フィルタモデル及び要約モデルを記憶する。プロセッサ１０は、正例及び負例を含む学習データを用いてフィルタモデル２２を学習し、学習済のフィルタモデル２２をモデル記憶部２０に記憶する。また、プロセッサ１０は、フィルタモデルでフィルタ済の学習データを教師データとして用いて要約モデル２４を学習し、学習済の要約モデル２４をモデル記憶部２０に記憶する。

なお、図ではフィルタモデル２２及び要約モデル２４を同一のモデル記憶部２０に記憶しているが、それぞれのモデルを異なる記憶部に記憶してもよい。また、図ではプロセッサ１０がフィルタモデル２２を学習するとともに要約モデル２４を学習しているが、第１のプロセッサでフィルタモデル２２を学習し、第１のプロセッサと異なる第２のプロセッサが要約モデル２４を学習してもよい。言い換えれば、フィルタモデル２２を学習するコンピュータと、要約モデル２４を学習するコンピュータはそれぞれ別個であってもよく、これらのコンピュータは通信回線で互いに接続されていてもよい。

プロセッサ１０は、広義的なプロセッサを指し、汎用的なプロセッサ（例えば CPU：Central Processing Unit等）や、専用のプロセッサ（例えば GPU：Graphics Processing Unit、ASIC：Application Specific Integrated Circuit、FPGA：Field Programmable Gate Array 、プログラマブル論理デバイス等）を含むものである。また、プロセッサの動作は、１つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。

図２は、プロセッサ１０で実行される学習処理を機能的に示す。既述したように、プロセッサ１０が用いるモデルは、フィルタモデル２２と要約モデル２４である。

フィルタモデル２２は、与えられた学習データ２６から不適切な本文と要約のペアをフィルタリング（除去）するモデルである。このため、プロセッサ１０は、与えられた学習データ２６を正例２８とするとともに、この学習データ２６から負例生成部３０によって負例３２を生成する。負例３２は、不適切であることが明らかな本文と要約のペアであり、負例生成部３０で本文と要約の組み合わせを変更することで生成される。プロセッサ１０は、正例２８と負例３２とを結合してフィルタモデル用学習データ３４を生成し、このフィルタモデル用学習データ３４を構成する本文と要約（要約候補）をフィルタモデル２２に入力し、フィルタモデル２２を学習する。すなわち、正例２８であるか負例３２であるかを正しく判定するように学習する。

次に、プロセッサ１０は、学習済のフィルタモデル２２に学習データ２６を入力し、学習データ２６から不適切な本文と要約のペアをフィルタリングする。不適切なペアがフィルタリングされた学習データ３６は、教師データとして要約モデル２４に入力し、要約モデル２４を学習する。

図３Ａ及び図３Ｂは、正例２８と負例３２の例をそれぞれ示す。正例２８及び負例３２は、それぞれ本文と要約のペアから構成される。正例２８については、本文に対して適切な要約と考えられるが、負例３２については、本文に対して不適切な要約となっている。

また、フィルタモデル２２及び要約モデル２４の詳細は、以下の通りである。

＜フィルタモデル＞
フィルタモデル２２におけるフィルタリングの方法として、Gregoire等（Francis Gregoire and Philippe Langlais. Extracting parallel sentences with bidirectional recurrent neural networks to improve machine translation. In COLING 2018.）の手法を用いる。この研究では，Siamese Network を利用して、翻訳の対となる文を取得し、新たに学習データに加える事で翻訳モデルの精度を向上させている。翻訳前の言語の文と翻訳後の言語の文をモデルへの入力とする。モデルは正しい翻訳になっているペアとそうでないペアかを判定するように学習する。学習後のモデルで、文単位の対応関係がわからないペアに対して予測を行い、正例を新たに学習データに加える事で精度を向上させている。

本実施形態では、本文と要約のペアの適切さをフィルタモデル２２が学習する。公知技術との相違点は、公知技術では学習データを増やすために分類モデルを使用しているのに対し、本実施形態では学習データ２６から負例生成部３０で負例３２を生成している点である。負例生成部３０での生成処理は任意であり、入力と出力の組み合わせを変更すればよく、学習データ２６における本文と要約のペアをランダムにサンプリングして新たにペアを生成することで負例３２を生成し得る。

学習データ２６における実際の本文と要約のペアを正例２８、ランダムにサンプリングされたペアを負例３２とし、フィルタモデル２２の学習を行う。学習後、フィルタモデル２２は、学習データ２６の内の正例２８のみ、つまり学習データ２６そのものを再判定する。予測確率の低いデータ下位ｎ%を要約モデル２４の学習データ、つまり要約モデル２４に入力すべき教師データから除去する。

フィルタモデル２２のモデリングには、例えば、Decomposable Attention（Ankur Parikh, Oscar Tackstrom, Dipanjan Das, and Jakob Uszkoreit. A decomposable attention model for natural language inference. In EMNLP 2016.）を用いることができる。パラメータ単語Embedding の次元は３００、初期値をGloVe（GloVe: Global Vectors for Word Representation. In EMNLP 2014.）の単語ベクトルと同等にする。Decomposable Attention モデル内の、Attend Feedforward ネットワーク，Aggregation Feedforward ネットワークに通した後の次元はそれぞれ１００とし得る。最適化には例えばAdagrad を使用し、損失関数には例えばCross Entropy を使用し得る。

＜要約モデル＞
要約モデル２４のモデリングには、例えばCopyNet（Jiatao Gu, Zhengdong Lu, Hang Li, and Victor O.K. Li. Incorporating copying mechanism in sequence-to-sequence learning. In ACL 2016.）を用いることができる。CopyNetは注意機構付きEncoder-Decoder モデルに、入力文（本文）に含まれる未知語を出力文（要約）に生成できる機構を加えたモデルである。パラメータは、フィルタモデル２２と同様に単語Embedding の次元を３００、初期値にGloVe（GloVe: Global Vectors for Word Representation. In EMNLP 2014.）を採用し得る。また、隠れ層の次元は２５６等とし得る。Beam Search のサイズを８とし、最適化にはAdam を使用し、損失関数にはCrossEntropy を使用し得る。

＜フローチャート＞
図４は、本実施形態の処理フローチャートを示す。

まず、本文と要約のペアからなる複数の学習データ２６を取得し、入力部１６から入力する（Ｓ１０１）。

プロセッサ１０は、学習データ２６を入力すると、学習データ２６から負例３２を生成する（Ｓ１０２）。具体的には、学習データ２６の本文と要約のペアをランダムにサンプリングし、サンプリングした本文と要約を組み合わせて新たなペアを生成する。学習データ２６の本文と要約のペアをシャッフルして新たなペアを生成してもよい。例えば、学習データ２６における本文と要約のペア（正例２８）が、
（Ｃ１，Ｓ１），（Ｃ２，Ｓ２），（Ｃ３，Ｓ３），（Ｃ４，Ｓ４）・・・
であるとすると、これらをシャッフルして、
（Ｃ１，Ｓ２），（Ｃ２，Ｓ５），（Ｃ３，Ｓ１），（Ｃ４，Ｓ１０），・・・
と負例３２を生成する等である。

負例３２を生成した後、プロセッサ１０は、正例２８のデータと負例３２のデータを結合して新たに学習データを作成し（Ｓ１０３）、この学習データをフィルタモデル２２に入力してフィルタモデルを学習する（Ｓ１０４）。フィルタモデル２２は、正例２８となっているペアと負例３２となっているペアかを判定するように学習する。フィルタモデル２２の出力は、正例である確率を判定確率（予測確率）として出力する。

フィルタモデル２２を学習した後、プロセッサ１０は、学習済のフィルタモデル２２に学習データ２６を入力し、学習データ２６をフィルタリングする（Ｓ１０５）。すなわち、Ｓ１０２で負例３２を生成し、Ｓ１０３で正例２８と負例３２を結合して新たな学習データを作成しているが、Ｓ１０５の処理では、元の学習データ２６をフィルタリングするために元の学習データ２６そのもの、つまり正例２８のみを対象としてフィルタモデル２２に入力する。フィルタモデル２２は、入力された正例２８それぞれに対し、正例である予測確率を出力する。フィルタモデル２２は、出力した予測確率を予め設定された閾値と比較し、閾値以下の正例を除去する。例えば、閾値を１０％とし、予測確率が１０％以下の正例２８を不適切なペアとして除去する。フィルタリングの閾値は、目的に応じて適宜調整し得る。

以上のように、学習済のフィルタモデル２２を用いて学習データ２６をフィルタリングした後、フィルタ済の学習データ２６を教師データとして要約モデル２４を学習し、本文を入力するとその要約が出力されるように学習する（Ｓ１０６）。

実施例として、Enron メールデータ（Rui Zhang and Joel Tetreault. This email could save your life: Introducing the task of email subject line generation. In ACL 2019.）のsubject と、Reddit TIFU データ（Byeongchang Kim, Hyunwoo Kim, and Gunhee Kim. Abstractive summarization of Reddit posts with multi-level memory networks. In NAACL 2019.）のタイトルを使用した。Enron データセット、Enron メールデータは元々、２００４年に公開されたEnron 社のメールデータセットであるが、これらのデータセットをタイトル生成タスク用に整備したものが、Zhang 等（Rui Zhang and Joel Tetreault. This email could save your life: Introducing the task of email subject line generation. In ACL 2019. ）により公開されている。これは１４，４３６の学習データと、１，９０６の開発データと１，９０６のテキストデータを含んでいる。学習データのメールsubject は、２００４年に公開されたデータセットと同じものが使われているが、開発データとテキストデータについては、新たに人手で作成されたものである。これは、元々のメールデータに含まれるsubject に内容を反映していない不適切なものが多いからである。メール本文とsubjectは，nltkを用いて単語にトークン化した。

Reddit データセットReddit TIFU データセッ６は、Reddit のSubreddit の一つであるTIFU（Today I fucked up）の投稿を集めたものである（Byeongchang Kim, Hyunwoo Kim, and Gunhee Kim. Abstractive summarization of Reddit posts with multi-level memory networks. In NAACL 2019.）。各投稿にはタイトルが付けられており，そのタイトルを投稿本文の要約とみなすデータセットである。投稿本文とタイトルの対、計７９，０１５対を９：０．５：０．５の割合で、学習データ、開発データ、テキストデータに分割し、各データの数は７１，１１３、３，９５１、３，９５１となった。公開されているデータセットに含まれるテキスト（投稿本文とタイトル）は，予めspacyを用いて単語にトークン化されているため、そちらを利用した。

フィルタモデル２２におけるフィルタリングの方法として、Gregoire等（Francis Gregoire and Philippe Langlais. Extracting parallel sentences with bidirectional recurrent neural networks to improve machine translation. In COLING 2018.）の手法を用いた。

フィルタモデル２２のモデリングには、Decomposable Attention（Ankur Parikh, Oscar Tackstrom, Dipanjan Das, and Jakob Uszkoreit. A decomposable attention model for natural language inference. In EMNLP 2016.）を用いた。パラメータ単語Embedding の次元は３００、初期値をGloVe4の単語ベクトルと同等にした。Decomposable Attention モデル内の、Attend Feedforward ネットワーク、Aggregation Feedforward ネットワークに通した後の次元はそれぞれ１００とした。最適化にはAdagrad を使用し、損失関数はCross Entropy を使用した。

また、要約モデル２４のモデリングには、CopyNet（Jiatao Gu, Zhengdong Lu, Hang Li, and Victor O.K. Li. Incorporating copying mechanism in sequence-to-sequence learning. In ACL 2016.）を用いた。パラメータは、フィルタモデル２２と同様に単語Embedding の次元を３００、初期値にGloVe（GloVe: Global Vectors for Word Representation. In EMNLP 2014.）を用いた。隠れ層の次元は２５６とし、Beam Search のサイズを８とし、最適化にはAdam を使用し、損失関数はCrossEntropy を使用した。

以上の構成において、フィルタモデル２２によって予測確率の下位５%、１０%、１５%、２０%を学習データ２６から除去して要約モデル２４を学習した場合の精度と、ランダムに同数だけデータを除去して要約モデル２４を学習させた場合の精度を比較した。要約モデル２４の精度評価には、ROUGE-1-F (R1)，ROUGE-2-F (R2)，ROUGE-L-F (RL) を使用した。最適化時、パラメータの初期化時、フィルタリング時のランダム性が結果に影響する事を防ぐため、要約モデル２４の学習は１０回行い、各精度の平均値を利用した。Epoch 数は５で、開発データにおけるROUGE-1-F 値が最大のEpoch のモデルをテストに使用した。

＜学習結果＞
＜フィルタモデル２２の学習結果＞
学習済フィルタモデル２２のタイトルと本文ペアを正しく判定する精度（Ｆ１値）は、
TIFU タイトルデータ：０．９３０
Enron subject データ：０．８００
であった。TIFU タイトルデータにおいてより精度が高かった理由としては、TIFU タイトルの方がEnron のsubjectに比べ要約長が長い事、また、Reddit の投稿自体の内容がメールデータに比べ多岐に渡るので、本文との関係性を予測しやすい点が挙げられる。

各データセットのフィルタリング（全データの５%、１０%、１５%、２０%）を行う際のフィルタモデル２２の予測確率値の閾値は、Enron subject データにおいて、
５％：０．２１５
１０％：０．３０７
１５％：０．３９０
２０％：０．４６７
であり、Reddit タイトルデータにおいて、
５％：０．２４６
１０％：０．４２４
１５％：０．５８４
２０％：０．７１７
であった。閾値の値が高めになっているのは、フィルタリング対象のデータがフィルタモデル２２の学習データ２６における正例だからである。

＜要約モデルの学習結果＞
フィルタリング後の要約モデル２４の学習結果を表１及び表２に示す。表１は、TIFUタイトルでの結果であり、表２はEnron subjectでの結果である。

これらの表において、TIFUタイトルデータの場合、フィルタリングによって除去される学習データが増えるたび、ランダムの結果は悪化していったが、実施例では、精度が向上していた。Enron subject データにおいては、除去率が１５％の際は、実施例の精度がランダムを上回ったが、他の除去率においては同程度となった。

フィルタリングされたデータの具体例を予測確率とともに表３に示す。

表３において、例えばタイトル
「Trimming my beard; a tale of woe」
と本文
「I have strong beard, it's been growing for 10 months. start trimming accidentally trim off too much compensate. Depression kicks in」
のペアは予測確率１．０００と出力される。また、タイトル
「Telling my students a PERSON PERSON joke」
と本文
「They just looked at me weirdly and thought I was some kind of horrible person now I guess I should just teach what is written in the textbook」
のペアは予測確率０．００４と出力される。予測確率０．００４のペアは、不適切なペアとして除去される。なお、「person」は、具体的な人名を置き換えたものである。

フィルタリングされたデータの多くは、本文から要約を予測することが難しかった。ソーシャルメディアやメールに起こり得ることは、本文とタイトルが別の内容を伝えているということである。特にTIFU データでは、表の例のように、タイトルの続きを本文で記しているため、本文にタイトルの情報が含まれていない例が多く見られた。逆に、予測確率が高かったペアのタイトルは、本文の内容を反映したものになっていた。

以上のように、Enronデータセットでは精度はほぼランダムと同等であったものの、TIFU データセットでは、ランダムより高い精度を得ることができた。

＜変形例１＞
本実施形態において、学習済の要約モデル２４を用いて本文を入力し、要約を出力した場合の誤差あるいは精度をフィルタモデル２２にフィードバックし、フィルタモデル２２を強化学習することでフィルタモデル２２のフィルタ精度をさらに向上させてもよい。

図５は、この場合のプロセッサ１０の学習処理を機能的に示す。図２と異なる点は、要約モデル２４での出力の誤差、すなわち予測要約の確率分布をフィルタモデル２２にフィードバックして再学習している点である。具体的には、要約モデル２４の精度向上を報酬とした強化学習を行う。

＜変形例２＞
本実施形態では、学習済のフィルタモデル２２において、出力された予測確率を閾値と比較し、閾値以下の予測確率を有するペアを不適切なペアとして除去しているが、予測確率に基づいてエントロピーを算出し、算出したエントロピーを用いて不適切なペアを除去してもよい。

具体的には、本文をｓ_ｋ、要約をｔ_ｋとし、これらは正しいペアであるとする。

フィルタモデル２２が算出した、ｓ_ｋとｔ_ｋが正しい対であるかの判定確率（予測確率）を

とする。

ある方法σ、τで取得したｓ_ｋ以外のＮ個の本文の集合を

ｔ_ｋ以外のＮ個の要約の集合を

とする。

但し、

である。

ここで、ある方法とは、例えばランダムサンプリングに基づく方法である。本文のエントロピーEntropy(ｓ_ｋ)、要約文のエントロピーEntropy(ｔ_ｋ)を、以下の式を用いて計算する。

そして、これらのエントロピーがある条件を満たす要約と本文のペアを学習データ２６から除去すればよい。

＜変形例３＞
本実施形態では、負例生成部３０における処理として、ランダムサンプリングやシャッフルを例示したが、文章間の類似度を算出し、類似度に基づいて類似度が閾値以上離れるように負例３２を生成してもよい。文章間の類似度は、LevenShtein距離、Humming距離、Cosine距離等の距離指標を用いて算出し得る。ここで、LevenShtein距離は、二つの文字列がどの程度異なっているかを示す距離の一種であり、１文字の挿入・削除・置換によって、一方の文字列をもう一方の文字列に変形するのに必要な手順の最小回数として定義される。また、Hamming 距離は、等しい文字数を持つ２つの文字列の中で、対応する位置にある異なった文字の個数であり、ある文字列を別の文字列に変形する際に必要な置換回数を計測したものである。

１０プロセッサ、１２ＲＯＭ、１４ＲＡＭ、１６入力部、１８出力部、２０モデル記憶部、２２フィルタモデル、２４要約モデル、２６学習データ。

Claims

入力と出力の複数ペアを入力する入力部と、
プロセッサと、
出力部と、
を備え、前記プロセッサは、プログラムを実行することで、
前記入力と出力のペアを正例として生成し、前記入力と出力の組み合わせが変更されたペアを負例として生成し、
前記正例及び前記負例を用いてフィルタモデルを学習し、
前記フィルタモデルを用いて、前記入力と出力のペアから誤ったペアを除去してフィルタリングする、
学習装置。
前記プロセッサは、さらに、
前記フィルタリングされた入力と出力のペアを用いて、入力から出力を得るモデルを学習する、
請求項１に記載の学習装置。
前記プロセッサは、
前記入力と出力のペアをランダムに入れ替えることで前記負例を生成する、
請求項１，２のいずれかに記載の学習装置。
前記プロセッサは、
前記入力と出力間の類似度に基づいて前記負例を生成する、
請求項１，２のいずれかに記載の学習装置。
前記プロセッサは、
学習済みの前記入力から出力を得るモデルの出力結果に基づき、前記フィルタモデルを強化学習する、
請求項２に記載の学習装置。
前記フィルタモデルは、入力と出力の正しいペアであるかの判定確率を用いる、
請求項１－５のいずれかに記載の学習装置。
前記フィルタモデルは、入力と出力の正しいペアであるかの判定確率から算出されるエントロピーを用いる、
請求項１－５のいずれかに記載の学習装置。
前記入力は本文データであり、前記出力は前記本文データの要約データである、
請求項１－７のいずれかに記載の学習装置。
前記入力は原文データであり、前記出力は前記原文データの翻訳文データである、
請求項１－７のいずれかに記載の学習装置。
コンピュータに、
入力と出力のペアを入力するステップと、
前記入力と出力のペアを正例として生成し、前記入力と出力の組み合わせが変更されたペアを負例として生成するステップと、
前記正例及び前記負例を用いてフィルタモデルを学習するステップと、
前記フィルタモデルを用いて、前記入力と出力のペアから誤ったペアを除去してフィルタリングするステップと、
を実行させるプログラム。