JP7476578B2 - 学習装置及びプログラム - Google Patents

学習装置及びプログラム Download PDF

Info

Publication number
JP7476578B2
JP7476578B2 JP2020038858A JP2020038858A JP7476578B2 JP 7476578 B2 JP7476578 B2 JP 7476578B2 JP 2020038858 A JP2020038858 A JP 2020038858A JP 2020038858 A JP2020038858 A JP 2020038858A JP 7476578 B2 JP7476578 B2 JP 7476578B2
Authority
JP
Japan
Prior art keywords
input
output
model
pairs
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020038858A
Other languages
English (en)
Other versions
JP2021140558A (ja
Inventor
竜示 狩野
友紀 谷口
智子 大熊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2020038858A priority Critical patent/JP7476578B2/ja
Priority to US17/008,714 priority patent/US20210279638A1/en
Priority to CN202010933785.3A priority patent/CN113360535A/zh
Publication of JP2021140558A publication Critical patent/JP2021140558A/ja
Application granted granted Critical
Publication of JP7476578B2 publication Critical patent/JP7476578B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Strategic Management (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、学習装置及びプログラムに関する。
教師データに基づいてモデルを機械学習する場合、教師データ精度がモデル精度に直接影響を与えるため、教師データの取り扱いが重要である。
特許文献1には、複数の教師データ要素それぞれに含まれる特徴候補に対して算出された重要度を用いて、複数の教師データ要素それぞれの情報量を算出し、複数の教師データ要素の中から機械学習に使用する教師データ要素を選択する技術が記載されている。
特許文献2には、予め設定された検証ルールに基づいて、入力値と出力値のペアが対応すると判定されたデータを新規学習データに追加する技術が記載されている。
特開2018-45559号公報 特開2019-16025号公報
機械学習の精度を向上させるには、正しい入力と出力のペア(以下、これを「正例」という)の教師データを十分な量予め用意する必要があるが、大量のデータを必要とする機械学習モデル(例:深層学習)では、自動的に取得できるラベルデータを正しい入力と出力のペアとみなし学習することが多い(例えば、ニュース記事の本文と見出し)。但し、こうしたデータは、ノイズを多く含んでいる。本発明は、こうしたノイズを新たな教師データなしにフィルタリングするモデルを学習させることを可能にする。そして、前記フィルタリングによって、機械学習の精度を向上させる技術を提供することを目的とする。
本発明は、フィルタリング用の新たな教師データを用意することなく、データに含まれるノイズをフィルタリングするモデルを学習させる技術を提供することを目的とする。
請求項1に記載の発明は、入力と出力の複数ペアを入力する入力部と、プロセッサと、出力部と、を備え、前記プロセッサは、プログラムを実行することで、前記入力と出力のペアを正例として生成し、前記入力と出力の組み合わせが変更されたペアを負例として生成し、前記正例及び前記負例を用いてフィルタモデルを学習し、前記フィルタモデルを用いて、前記入力と出力のペアから誤ったペアを除去してフィルタリングする、学習装置である。
請求項2に記載の発明は、前記プロセッサは、さらに、前記フィルタリングされた入力と出力のペアを用いて、入力から出力を得るモデルを学習する、請求項1に記載の学習装置である。
請求項3に記載の発明は、前記プロセッサは、前記入力と出力のペアをランダムに入れ替えることで前記負例を生成する、請求項1,2のいずれかに記載の学習装置である。
請求項4に記載の発明は、前記プロセッサは、前記入力と出力間の類似度に基づいて前記負例を生成する、請求項1,2のいずれかに記載の学習装置である。
請求項5に記載の発明は、前記プロセッサは、学習済みの前記入力から出力を得るモデルの出力結果に基づき、前記フィルタモデルを強化学習する、請求項2に記載の学習装置である。
請求項6に記載の発明は、前記フィルタモデルは、入力と出力の正しいペアであるかの判定確率を用いる、請求項1-5のいずれかに記載の学習装置である。
請求項7に記載の発明は、前記フィルタモデルは、入力と出力の正しいペアであるかの判定確率から算出されるエントロピーを用いる、請求項1-5のいずれかに記載の学習装置である。
請求項8に記載の発明は、前記入力は本文データであり、前記出力は前記本文データの要約データである、請求項1-7のいずれかに記載の学習装置である。
請求項9に記載の発明は、前記入力は原文データであり、前記出力は前記原文データの翻訳文データである、請求項1-7のいずれかに記載の学習装置である。
請求項10に記載の発明は、コンピュータに、入力と出力のペアを入力するステップと、前記入力と出力のペアを正例として生成し、前記入力と出力の組み合わせが変更されたペアを負例として生成するステップと、前記正例及び前記負例を用いてフィルタモデルを学習するステップと、前記フィルタモデルを用いて、前記入力と出力のペアから誤ったペアを除去してフィルタリングするステップと、を実行させるプログラムである。
請求項1,2,10に記載の発明によれば、前記フィルタモデル用の教師データを予め用意することなく、機械学習の精度を向上させることができる。
請求項3,4に記載の発明によれば、さらに、比較的簡易な処理で負例を生成し得る。
請求項5に記載の発明によれば、さらに、機械学習の精度をより向上させることができる。
請求項6,7に記載の発明によれば、さらに、判定確率を用いて不適切なペアを除去し得る。
請求項8に記載の発明によれば、さらに、学習済のモデルを用いて本文から要約を作成できる。
請求項9に記載の発明によれば、さらに、学習済のモデルを用いて原文から翻訳文を作成できる。
実施形態の構成ブロック図である。 実施形態の学習処理の機能ブロック図である。 実施形態の正例の説明図である。 実施形態の負例の説明図である。 実施形態の処理フローチャートである。 変形例の学習処理の機能ブロック図である。
以下、図面に基づき本発明の実施形態について、入力として本文、出力として当該本文の要約を出力する要約モデルの学習を例にとり説明する。
<基本原理>
まず、本実施形態の基本原理について説明する。
タイトルを要約とみなして、要約モデルを学習させる試みは、Rush(Alexander M. Rush, Sumit Chopra, and Jason Weston. A neural attention model for abstractive sentence summarization. In EMNLP 2015.) 以降広く行われてきた。その多くはニュース記事のタイトルを利用しているが、それ以外にも、ソーシャルメディアの投稿、レビューサイトの投稿、メールのタイトル等、様々な媒体のテキストで応用されている。
しかし、タイトルが要約の教師データとして適切かどうかは度々疑問が呈されている。特にソーシャルメディア、レビューサイト、メール等の、不特定多数の人物が自由に執筆できる媒体においては,その質は担保されていない。Li等(Junjie Li, Haoran Li, and Chengqing Zong. Towards personalized review summarization via user-aware sequence network. In AAAI 2019.) はレビューサイトのデータに、Zhang等(Rui Zhang and Joel Tetreault. This email could save your life: Introducing the task of email subject line generation. In ACL 2019. )はメールデータにおいて、要約として不適切なタイトルが多く存在している事を指摘している。
そこで、本実施形態では、要約の学習データからこうした不適切なデータをフィルタリングする。すなわち、Gregoire 等(Francis Gregoire and Philippe Langlais. Extracting parallel sentences with bidirectional recurrent neural networks to improve machine translation. In COLING 2018.)の手法を要約タスクに応用する。これは、翻訳タスクにおいて、Siamese Network を用いて、2言語のテキストから対応関係のある2文を抽出し、得られたデータを既存学習データに加える事で翻訳性能を向上させている。
本実施形態では、正しい本文とタイトルのペアを「正例」、誤ったペアを「負例」として、フィルタモデルを学習させる。誤ったペアである負例は、入力と出力のペアを変更することで取得し、例えばランダムサンプリングで取得する。本実施形態では、入力と出力のペアを変更することで負例を生成するので、別途、負例を新たに外部から取得する必要がない。学習済のフィルタモデルは、ペアを入力すると、そのペアが正しいペアである確率を出力する。
そして、学習済のフィルタモデルを使い、学習データの正例のみをフィルタリングする。フィルタリングに際しては、フィルタモデルの出力である確率を閾値と比較し、閾値以下の確率を有するペアを不適切なペアとして除去する。フィルタモデルは、学習データに含まれる正例であっても、負例と判定し得る。これにより、元の学習データに含まれるペアのうち、不適切なペアを除去し、適切なペアのみを残存せしめて教師データとし、要約モデルを学習する。
本実施形態は、元の学習データから生成された負例を用いてフィルタモデルを学習し、このフィルタモデルで元の学習データをフィルタリングすることで学習データから不適切なペアを除去し、要約モデルの学習精度を向上させるといえる。
以下、本実施形態について、より具体的に説明する。
<構成>
図1は、本実施形態における学習装置の構成ブロック図を示す。
学習装置は、コンピュータで構成され、プロセッサ10、ROM12、RAM14、入力部16、出力部18、及びモデル記憶部20を備える。
プロセッサ10は、ROM12あるいはその他のプログラムメモリに記憶された処理プログラムを読み出し、RAM14を作業メモリとして用いて実行することで、フィルタリングタスク及び要約タスクを実現する。プロセッサ10は、入力された学習データに基づき、学習データを正例、学習データから生成された誤ったペアを負例とし、正例と負例を結合して新たな学習データとし、フィルタモデルを学習する。そして、学習済のフィルタモデルを用いて元の学習データをフィルタリングし、フィルタ済の学習データを教師データとして要約モデルを学習する。すなわち、プロセッサ10での学習処理は、以下の4段階に大別される。
(1)学習データから負例を作成し、正例と負例を結合して新たな学習データとする
(2)新たな学習データでフィルタモデルを学習する
(3)学習済のフィルタモデルで元の学習データをフィルタリングする
(4)フィルタ済の学習データを教師データとして要約モデルを学習する
また、プロセッサ10が利用するモデルは、以下の2つのモデルである。
(A)フィルタモデル
(B)要約モデル
学習済の要約モデルは、本文が入力されるとその要約を作成して出力する。
入力部16は、キーボードや通信インターフェイス等で構成され、学習データを入力する。学習データは、基本的にはテキストデータであるが、画像データであってもよい。画像データの場合、OCR(Optical Character Recognition)技術を用いてテキストデータに変換する。学習データには、ニュース記事、ソーシャルメディアの投稿、レビューサイト等の投稿、メールデータ等が含まれる。
出力部18は、ディスプレイや通信インターフェイス等で構成され、プロセッサ10での要約タスクの結果、すなわち本文から作成された要約を出力する。
モデル記憶部20は、フィルタモデル及び要約モデルを記憶する。プロセッサ10は、正例及び負例を含む学習データを用いてフィルタモデル22を学習し、学習済のフィルタモデル22をモデル記憶部20に記憶する。また、プロセッサ10は、フィルタモデルでフィルタ済の学習データを教師データとして用いて要約モデル24を学習し、学習済の要約モデル24をモデル記憶部20に記憶する。
なお、図ではフィルタモデル22及び要約モデル24を同一のモデル記憶部20に記憶しているが、それぞれのモデルを異なる記憶部に記憶してもよい。また、図ではプロセッサ10がフィルタモデル22を学習するとともに要約モデル24を学習しているが、第1のプロセッサでフィルタモデル22を学習し、第1のプロセッサと異なる第2のプロセッサが要約モデル24を学習してもよい。言い換えれば、フィルタモデル22を学習するコンピュータと、要約モデル24を学習するコンピュータはそれぞれ別個であってもよく、これらのコンピュータは通信回線で互いに接続されていてもよい。
プロセッサ10は、広義的なプロセッサを指し、汎用的なプロセッサ(例えば CPU:Central Processing Unit等)や、専用のプロセッサ(例えば GPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array 、プログラマブル論理デバイス等)を含むものである。また、プロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。
図2は、プロセッサ10で実行される学習処理を機能的に示す。既述したように、プロセッサ10が用いるモデルは、フィルタモデル22と要約モデル24である。
フィルタモデル22は、与えられた学習データ26から不適切な本文と要約のペアをフィルタリング(除去)するモデルである。このため、プロセッサ10は、与えられた学習データ26を正例28とするとともに、この学習データ26から負例生成部30によって負例32を生成する。負例32は、不適切であることが明らかな本文と要約のペアであり、負例生成部30で本文と要約の組み合わせを変更することで生成される。プロセッサ10は、正例28と負例32とを結合してフィルタモデル用学習データ34を生成し、このフィルタモデル用学習データ34を構成する本文と要約(要約候補)をフィルタモデル22に入力し、フィルタモデル22を学習する。すなわち、正例28であるか負例32であるかを正しく判定するように学習する。
次に、プロセッサ10は、学習済のフィルタモデル22に学習データ26を入力し、学習データ26から不適切な本文と要約のペアをフィルタリングする。不適切なペアがフィルタリングされた学習データ36は、教師データとして要約モデル24に入力し、要約モデル24を学習する。
図3A及び図3Bは、正例28と負例32の例をそれぞれ示す。正例28及び負例32は、それぞれ本文と要約のペアから構成される。正例28については、本文に対して適切な要約と考えられるが、負例32については、本文に対して不適切な要約となっている。
また、フィルタモデル22及び要約モデル24の詳細は、以下の通りである。
<フィルタモデル>
フィルタモデル22におけるフィルタリングの方法として、Gregoire等(Francis Gregoire and Philippe Langlais. Extracting parallel sentences with bidirectional recurrent neural networks to improve machine translation. In COLING 2018.)の手法を用いる。この研究では,Siamese Network を利用して、翻訳の対となる文を取得し、新たに学習データに加える事で翻訳モデルの精度を向上させている。翻訳前の言語の文と翻訳後の言語の文をモデルへの入力とする。モデルは正しい翻訳になっているペアとそうでないペアかを判定するように学習する。学習後のモデルで、文単位の対応関係がわからないペアに対して予測を行い、正例を新たに学習データに加える事で精度を向上させている。
本実施形態では、本文と要約のペアの適切さをフィルタモデル22が学習する。公知技術との相違点は、公知技術では学習データを増やすために分類モデルを使用しているのに対し、本実施形態では学習データ26から負例生成部30で負例32を生成している点である。負例生成部30での生成処理は任意であり、入力と出力の組み合わせを変更すればよく、学習データ26における本文と要約のペアをランダムにサンプリングして新たにペアを生成することで負例32を生成し得る。
学習データ26における実際の本文と要約のペアを正例28、ランダムにサンプリングされたペアを負例32とし、フィルタモデル22の学習を行う。学習後、フィルタモデル22は、学習データ26の内の正例28のみ、つまり学習データ26そのものを再判定する。予測確率の低いデータ下位n%を要約モデル24の学習データ、つまり要約モデル24に入力すべき教師データから除去する。
フィルタモデル22のモデリングには、例えば、Decomposable Attention(Ankur Parikh, Oscar Tackstrom, Dipanjan Das, and Jakob Uszkoreit. A decomposable attention model for natural language inference. In EMNLP 2016.)を用いることができる。パラメータ単語Embedding の次元は300、 初期値をGloVe(GloVe: Global Vectors for Word Representation. In EMNLP 2014.)の単語ベクトルと同等にする。Decomposable Attention モデル内の、Attend Feedforward ネットワーク,Aggregation Feedforward ネットワークに通した後の次元はそれぞれ100とし得る。最適化には例えばAdagrad を使用し、損失関数には例えばCross Entropy を使用し得る。
<要約モデル>
要約モデル24のモデリングには、例えばCopyNet(Jiatao Gu, Zhengdong Lu, Hang Li, and Victor O.K. Li. Incorporating copying mechanism in sequence-to-sequence learning. In ACL 2016.)を用いることができる。CopyNetは注意機構付きEncoder-Decoder モデルに、入力文(本文)に含まれる未知語を出力文(要約)に生成できる機構を加えたモデルである。パラメータは、フィルタモデル22と同様に単語Embedding の次元を300、初期値にGloVe(GloVe: Global Vectors for Word Representation. In EMNLP 2014.) を採用し得る。また、隠れ層の次元は256等とし得る。Beam Search のサイズを8とし、最適化にはAdam を使用し、損失関数にはCrossEntropy を使用し得る。
<フローチャート>
図4は、本実施形態の処理フローチャートを示す。
まず、本文と要約のペアからなる複数の学習データ26を取得し、入力部16から入力する(S101)。
プロセッサ10は、学習データ26を入力すると、学習データ26から負例32を生成する(S102)。具体的には、学習データ26の本文と要約のペアをランダムにサンプリングし、サンプリングした本文と要約を組み合わせて新たなペアを生成する。学習データ26の本文と要約のペアをシャッフルして新たなペアを生成してもよい。例えば、学習データ26における本文と要約のペア(正例28)が、
(C1,S1),(C2,S2),(C3,S3),(C4,S4)・・・
であるとすると、これらをシャッフルして、
(C1,S2),(C2,S5),(C3,S1),(C4,S10),・・・
と負例32を生成する等である。
負例32を生成した後、プロセッサ10は、正例28のデータと負例32のデータを結合して新たに学習データを作成し(S103)、この学習データをフィルタモデル22に入力してフィルタモデルを学習する(S104)。フィルタモデル22は、正例28となっているペアと負例32となっているペアかを判定するように学習する。フィルタモデル22の出力は、正例である確率を判定確率(予測確率)として出力する。
フィルタモデル22を学習した後、プロセッサ10は、学習済のフィルタモデル22に学習データ26を入力し、学習データ26をフィルタリングする(S105)。すなわち、S102で負例32を生成し、S103で正例28と負例32を結合して新たな学習データを作成しているが、S105の処理では、元の学習データ26をフィルタリングするために元の学習データ26そのもの、つまり正例28のみを対象としてフィルタモデル22に入力する。フィルタモデル22は、入力された正例28それぞれに対し、正例である予測確率を出力する。フィルタモデル22は、出力した予測確率を予め設定された閾値と比較し、閾値以下の正例を除去する。例えば、閾値を10%とし、予測確率が10%以下の正例28を不適切なペアとして除去する。フィルタリングの閾値は、目的に応じて適宜調整し得る。
以上のように、学習済のフィルタモデル22を用いて学習データ26をフィルタリングした後、フィルタ済の学習データ26を教師データとして要約モデル24を学習し、本文を入力するとその要約が出力されるように学習する(S106)。
実施例として、Enron メールデータ(Rui Zhang and Joel Tetreault. This email could save your life: Introducing the task of email subject line generation. In ACL 2019.)のsubject と、Reddit TIFU データ(Byeongchang Kim, Hyunwoo Kim, and Gunhee Kim. Abstractive summarization of Reddit posts with multi-level memory networks. In NAACL 2019.)のタイトルを使用した。Enron データセット、Enron メールデータは元々、2004年に公開されたEnron 社のメールデータセットであるが、これらのデータセットをタイトル生成タスク用に整備したものが、Zhang 等(Rui Zhang and Joel Tetreault. This email could save your life: Introducing the task of email subject line generation. In ACL 2019. )により公開されている。これは14,436の学習データと、1,906の開発データと1,906のテキストデータを含んでいる。学習データのメールsubject は、2004年に公開されたデータセットと同じものが使われているが、開発データとテキストデータについては、新たに人手で作成されたものである。これは、元々のメールデータに含まれるsubject に内容を反映していない不適切なものが多いからである。メール本文とsubjectは,nltkを用いて単語にトークン化した。
Reddit データセットReddit TIFU データセッ6は、Reddit のSubreddit の一つであるTIFU(Today I fucked up)の投稿を集めたものである(Byeongchang Kim, Hyunwoo Kim, and Gunhee Kim. Abstractive summarization of Reddit posts with multi-level memory networks. In NAACL 2019.)。各投稿にはタイトルが付けられており,そのタイトルを投稿本文の要約とみなすデータセットである。投稿本文とタイトルの対、計79,015対を9:0.5:0.5の割合で、学習データ、開発データ、テキストデータに分割し、各データの数は71,113、3,951、3,951となった。公開されているデータセットに含まれるテキスト(投稿本文とタイトル)は,予めspacyを用いて単語にトークン化されているため、そちらを利用した。
フィルタモデル22におけるフィルタリングの方法として、Gregoire等(Francis Gregoire and Philippe Langlais. Extracting parallel sentences with bidirectional recurrent neural networks to improve machine translation. In COLING 2018.)の手法を用いた。
フィルタモデル22のモデリングには、Decomposable Attention(Ankur Parikh, Oscar Tackstrom, Dipanjan Das, and Jakob Uszkoreit. A decomposable attention model for natural language inference. In EMNLP 2016.)を用いた。パラメータ単語Embedding の次元は300、 初期値をGloVe4の単語ベクトルと同等にした。Decomposable Attention モデル内の、Attend Feedforward ネットワーク、Aggregation Feedforward ネットワークに通した後の次元はそれぞれ100とした。最適化にはAdagrad を使用し、損失関数はCross Entropy を使用した。
また、要約モデル24のモデリングには、CopyNet(Jiatao Gu, Zhengdong Lu, Hang Li, and Victor O.K. Li. Incorporating copying mechanism in sequence-to-sequence learning. In ACL 2016.)を用いた。パラメータは、フィルタモデル22と同様に単語Embedding の次元を300、初期値にGloVe(GloVe: Global Vectors for Word Representation. In EMNLP 2014.) を用いた。隠れ層の次元は256とし、Beam Search のサイズを8とし、最適化にはAdam を使用し、損失関数はCrossEntropy を使用した。
以上の構成において、フィルタモデル22によって予測確率の下位5%、10%、15%、20%を学習データ26から除去して要約モデル24を学習した場合の精度と、ランダムに同数だけデータを除去して要約モデル24を学習させた場合の精度を比較した。要約モデル24の精度評価には、ROUGE-1-F (R1),ROUGE-2-F (R2),ROUGE-L-F (RL) を使用した。最適化時、パラメータの初期化時、フィルタリング時のランダム性が結果に影響する事を防ぐため、要約モデル24の学習は10回行い、各精度の平均値を利用した。Epoch 数は5で、開発データにおけるROUGE-1-F 値が最大のEpoch のモデルをテストに使用した。
<学習結果>
<フィルタモデル22の学習結果>
学習済フィルタモデル22のタイトルと本文ペアを正しく判定する精度(F1値)は、
TIFU タイトルデータ:0.930
Enron subject データ:0.800
であった。TIFU タイトルデータにおいてより精度が高かった理由としては、TIFU タイトルの方がEnron のsubjectに比べ要約長が長い事、また、Reddit の投稿自体の内容がメールデータに比べ多岐に渡るので、本文との関係性を予測しやすい点が挙げられる。
各データセットのフィルタリング(全データの5%、10%、15%、20%)を行う際のフィルタモデル22の予測確率値の閾値は、Enron subject データにおいて、
5%:0.215
10%:0.307
15%:0.390
20%:0.467
であり、Reddit タイトルデータにおいて、
5%:0.246
10%:0.424
15%:0.584
20%:0.717
であった。閾値の値が高めになっているのは、フィルタリング対象のデータがフィルタモデル22の学習データ26における正例だからである。
<要約モデルの学習結果>
フィルタリング後の要約モデル24の学習結果を表1及び表2に示す。表1は、TIFUタイトルでの結果であり、表2はEnron subjectでの結果である。
Figure 0007476578000001
Figure 0007476578000002
これらの表において、TIFUタイトルデータの場合、フィルタリングによって除去される学習データが増えるたび、ランダムの結果は悪化していったが、実施例では、精度が向上していた。Enron subject データにおいては、除去率が15%の際は、実施例の精度がランダムを上回ったが、他の除去率においては同程度となった。
フィルタリングされたデータの具体例を予測確率とともに表3に示す。
Figure 0007476578000003
表3において、例えばタイトル
「Trimming my beard; a tale of woe」
と本文
「I have strong beard, it's been growing for 10 months. start trimming accidentally trim off too much compensate. Depression kicks in」
のペアは予測確率1.000と出力される。また、タイトル
「Telling my students a PERSON PERSON joke」
と本文
「They just looked at me weirdly and thought I was some kind of horrible person now I guess I should just teach what is written in the textbook」
のペアは予測確率0.004と出力される。予測確率0.004のペアは、不適切なペアとして除去される。なお、「person」は、具体的な人名を置き換えたものである。
フィルタリングされたデータの多くは、本文から要約を予測することが難しかった。ソーシャルメディアやメールに起こり得ることは、本文とタイトルが別の内容を伝えているということである。特にTIFU データでは、表の例のように、タイトルの続きを本文で記しているため、本文にタイトルの情報が含まれていない例が多く見られた。逆に、予測確率が高かったペアのタイトルは、本文の内容を反映したものになっていた。
以上のように、Enronデータセットでは精度はほぼランダムと同等であったものの、TIFU データセットでは、ランダムより高い精度を得ることができた。
<変形例1>
本実施形態において、学習済の要約モデル24を用いて本文を入力し、要約を出力した場合の誤差あるいは精度をフィルタモデル22にフィードバックし、フィルタモデル22を強化学習することでフィルタモデル22のフィルタ精度をさらに向上させてもよい。
図5は、この場合のプロセッサ10の学習処理を機能的に示す。図2と異なる点は、要約モデル24での出力の誤差、すなわち予測要約の確率分布をフィルタモデル22にフィードバックして再学習している点である。具体的には、要約モデル24の精度向上を報酬とした強化学習を行う。
<変形例2>
本実施形態では、学習済のフィルタモデル22において、出力された予測確率を閾値と比較し、閾値以下の予測確率を有するペアを不適切なペアとして除去しているが、予測確率に基づいてエントロピーを算出し、算出したエントロピーを用いて不適切なペアを除去してもよい。
具体的には、本文をs、要約をtとし、これらは正しいペアであるとする。
フィルタモデル22が算出した、sとtが正しい対であるかの判定確率(予測確率)を
Figure 0007476578000004
とする。
ある方法σ、τで取得したs以外のN個の本文の集合を
Figure 0007476578000005
以外のN個の要約の集合を
Figure 0007476578000006
とする。
但し、
Figure 0007476578000007
である。
ここで、ある方法とは、例えばランダムサンプリングに基づく方法である。本文のエントロピーEntropy(s)、要約文のエントロピーEntropy(t)を、以下の式を用いて計算する。
Figure 0007476578000008
Figure 0007476578000009
そして、これらのエントロピーがある条件を満たす要約と本文のペアを学習データ26から除去すればよい。
<変形例3>
本実施形態では、負例生成部30における処理として、ランダムサンプリングやシャッフルを例示したが、文章間の類似度を算出し、類似度に基づいて類似度が閾値以上離れるように負例32を生成してもよい。文章間の類似度は、LevenShtein距離、Humming距離、Cosine距離等の距離指標を用いて算出し得る。ここで、LevenShtein距離は、二つの文字列がどの程度異なっているかを示す距離の一種であり、1文字の挿入・削除・置換によって、一方の文字列をもう一方の文字列に変形するのに必要な手順の最小回数として定義される。また、Hamming 距離は、等しい文字数を持つ2つの文字列の中で、対応する位置にある異なった文字の個数であり、ある文字列を別の文字列に変形する際に必要な置換回数を計測したものである。
10 プロセッサ、12 ROM、14 RAM、16 入力部、18 出力部、20 モデル記憶部、22 フィルタモデル、24 要約モデル、26 学習データ。

Claims (10)

  1. 入力と出力の複数ペアを入力する入力部と、
    プロセッサと、
    出力部と、
    を備え、前記プロセッサは、プログラムを実行することで、
    前記入力と出力のペアを正例として生成し、前記入力と出力の組み合わせが変更されたペアを負例として生成し、
    前記正例及び前記負例を用いてフィルタモデルを学習し、
    前記フィルタモデルを用いて、前記入力と出力のペアから誤ったペアを除去してフィルタリングする、
    学習装置。
  2. 前記プロセッサは、さらに、
    前記フィルタリングされた入力と出力のペアを用いて、入力から出力を得るモデルを学習する、
    請求項1に記載の学習装置。
  3. 前記プロセッサは、
    前記入力と出力のペアをランダムに入れ替えることで前記負例を生成する、
    請求項1,2のいずれかに記載の学習装置。
  4. 前記プロセッサは、
    前記入力と出力間の類似度に基づいて前記負例を生成する、
    請求項1,2のいずれかに記載の学習装置。
  5. 前記プロセッサは、
    学習済みの前記入力から出力を得るモデルの出力結果に基づき、前記フィルタモデルを強化学習する、
    請求項2に記載の学習装置。
  6. 前記フィルタモデルは、入力と出力の正しいペアであるかの判定確率を用いる、
    請求項1-5のいずれかに記載の学習装置。
  7. 前記フィルタモデルは、入力と出力の正しいペアであるかの判定確率から算出されるエントロピーを用いる、
    請求項1-5のいずれかに記載の学習装置。
  8. 前記入力は本文データであり、前記出力は前記本文データの要約データである、
    請求項1-7のいずれかに記載の学習装置。
  9. 前記入力は原文データであり、前記出力は前記原文データの翻訳文データである、
    請求項1-7のいずれかに記載の学習装置。
  10. コンピュータに、
    入力と出力のペアを入力するステップと、
    前記入力と出力のペアを正例として生成し、前記入力と出力の組み合わせが変更されたペアを負例として生成するステップと、
    前記正例及び前記負例を用いてフィルタモデルを学習するステップと、
    前記フィルタモデルを用いて、前記入力と出力のペアから誤ったペアを除去してフィルタリングするステップと、
    を実行させるプログラム。
JP2020038858A 2020-03-06 2020-03-06 学習装置及びプログラム Active JP7476578B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020038858A JP7476578B2 (ja) 2020-03-06 2020-03-06 学習装置及びプログラム
US17/008,714 US20210279638A1 (en) 2020-03-06 2020-09-01 Training apparatus and non-transitory computer readable medium
CN202010933785.3A CN113360535A (zh) 2020-03-06 2020-09-08 学习装置、学习方法和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020038858A JP7476578B2 (ja) 2020-03-06 2020-03-06 学習装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2021140558A JP2021140558A (ja) 2021-09-16
JP7476578B2 true JP7476578B2 (ja) 2024-05-01

Family

ID=77524435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020038858A Active JP7476578B2 (ja) 2020-03-06 2020-03-06 学習装置及びプログラム

Country Status (3)

Country Link
US (1) US20210279638A1 (ja)
JP (1) JP7476578B2 (ja)
CN (1) CN113360535A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11354515B2 (en) * 2020-07-21 2022-06-07 Salesforce, Inc. Discovery and recommendation of online learning resources
US11481425B2 (en) * 2021-02-22 2022-10-25 International Business Machines Corporation Automatic generation of presentation slides from documents

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003248676A (ja) 2002-02-22 2003-09-05 Communication Research Laboratory 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法
JP2018206262A (ja) 2017-06-08 2018-12-27 日本電信電話株式会社 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
JP2019149030A (ja) 2018-02-27 2019-09-05 日本電信電話株式会社 学習品質推定装置、方法、及びプログラム
US20190294694A1 (en) 2018-03-21 2019-09-26 International Business Machines Corporation Similarity based negative sampling analysis

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11250311B2 (en) * 2017-03-15 2022-02-15 Salesforce.Com, Inc. Deep neural network-based decision network
WO2019027259A1 (en) * 2017-08-01 2019-02-07 Samsung Electronics Co., Ltd. APPARATUS AND METHOD FOR PROVIDING SUMMARY INFORMATION USING ARTIFICIAL INTELLIGENCE MODEL
GB201805293D0 (en) * 2018-03-29 2018-05-16 Benevolentai Tech Limited Attention filtering for multiple instance learning
CN113678147A (zh) * 2019-04-09 2021-11-19 基诺媒体株式会社 搜索方法以及信息处理系统
US20210142181A1 (en) * 2019-11-07 2021-05-13 Microsoft Technology Licensing, Llc Adversarial training of machine learning models
US11222167B2 (en) * 2019-12-19 2022-01-11 Adobe Inc. Generating structured text summaries of digital documents using interactive collaboration

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003248676A (ja) 2002-02-22 2003-09-05 Communication Research Laboratory 解データ編集処理装置、解データ編集処理方法、自動要約処理装置、および自動要約処理方法
JP2018206262A (ja) 2017-06-08 2018-12-27 日本電信電話株式会社 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
JP2019149030A (ja) 2018-02-27 2019-09-05 日本電信電話株式会社 学習品質推定装置、方法、及びプログラム
US20190294694A1 (en) 2018-03-21 2019-09-26 International Business Machines Corporation Similarity based negative sampling analysis

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
白井 圭佑 ほか,人工負例による識別器を用いたニューラル機械翻訳,言語処理学会 第25回年次大会 発表論文集,言語処理学会,2019年03月,pp.105-108

Also Published As

Publication number Publication date
JP2021140558A (ja) 2021-09-16
CN113360535A (zh) 2021-09-07
US20210279638A1 (en) 2021-09-09

Similar Documents

Publication Publication Date Title
Li et al. User reviews: Sentiment analysis using lexicon integrated two-channel CNN–LSTM​ family models
Cheng et al. An emotion cause corpus for chinese microblogs with multiple-user structures
Millstein Natural language processing with python: natural language processing using NLTK
Gao et al. Text classification research based on improved Word2vec and CNN
JP7476578B2 (ja) 学習装置及びプログラム
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
Errami et al. Sentiment Analysis onMoroccan Dialect based on ML and Social Media Content Detection
Wadud et al. Text coherence analysis based on misspelling oblivious word embeddings and deep neural network
Sajid et al. Roman Urdu multi-class offensive text detection using hybrid features and SVM
Bhatia et al. Analysing cyberbullying using natural language processing by understanding jargon in social media
Ziani et al. Combining RSS-SVM with genetic algorithm for Arabic opinions analysis
Amur et al. State-of-the Art: Short Text Semantic Similarity (STSS) Techniques in Question Answering Systems (QAS)
CN116108840A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
JP6586055B2 (ja) 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム
Pratheek et al. Prediction of answer keywords using char-RNN
Lo et al. GPoeT-2: A GPT-2 based poem generator
Chua et al. A comparative study of sentiment-based graphs of text summaries
Patel et al. Mental health detection using transformer bert
Indirakanth et al. Sarcasm Identification Of Dravidian Languages (Malayalam and Tamil).
Le et al. CRYPTEXT: Database and Interactive Toolkit of Human-Written Text Perturbations in the Wild
Langlais et al. Issues in analogical inference over sequences of symbols: A case study on proper name transliteration
Liza Sentence classification with imbalanced data for health applications
Banovic et al. How Soon Can We Detect Depression?
Kolappan Computer Assisted Short Answer Grading with Rubrics using Active Learning
Feng et al. Opinion analysis based on TNF (textual noise fixing) algorithm

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240401

R150 Certificate of patent or registration of utility model

Ref document number: 7476578

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150