JP2018073163A - 符号器学習装置、変換装置、方法、及びプログラム - Google Patents

符号器学習装置、変換装置、方法、及びプログラム Download PDF

Info

Publication number
JP2018073163A
JP2018073163A JP2016212964A JP2016212964A JP2018073163A JP 2018073163 A JP2018073163 A JP 2018073163A JP 2016212964 A JP2016212964 A JP 2016212964A JP 2016212964 A JP2016212964 A JP 2016212964A JP 2018073163 A JP2018073163 A JP 2018073163A
Authority
JP
Japan
Prior art keywords
encoder
unit
discrete structure
auxiliary
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016212964A
Other languages
English (en)
Other versions
JP6633999B2 (ja
Inventor
鈴木 潤
Jun Suzuki
潤 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016212964A priority Critical patent/JP6633999B2/ja
Publication of JP2018073163A publication Critical patent/JP2018073163A/ja
Application granted granted Critical
Publication of JP6633999B2 publication Critical patent/JP6633999B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】精度よく離散構造を変換することができる。
【解決手段】符号器構築部232が、入力された離散構造に基づいて、離散構造の各要素に対応する、要素を符号化する符号化ユニットを接続した符号器であって、主問題に対して予め定められた補助問題に対応する予測器を含む符号器を構築する。符号器計算部234が、構築された前記符号器に基づいて、入力された離散構造の各要素を、対応する符号化ユニットに入力して、順次計算して、入力された離散構造の符号を出力すると共に、予測器を計算して補助問題の解を予測する。復号器計算部236が、出力された符号及び前記補助問題の解を、復号器に入力して、順次計算して、離散構造を出力する。
【選択図】図14

Description

本発明は、符号器学習装置、変換装置、方法、及びプログラムに係り、特に、離散構造を変換する問題を解くための符号器学習装置、変換装置、方法、及びプログラムに関する。
自然言語処理分野の問題を題材として背景技術を説明する。計算機により自然言語を処理する技術は、文章に現れる表層的な文字や単語といった離散シンボルの集合を処理する技術と言える。例えば、ある言語の文を入力し、別の言語の文を出力する自動翻訳システムを考える。このシステムでは、入力および出力の文を単語列(文字列)とみなして処理が行われる。よって、システム内の計算機により、離散構造(シンボル構造)から別の離散構造へ変換する処理を行っているとみなすことができる。また、文書要約システム、対話システム、文章構成システムなどの言語を入出力とするシステムは、前述の翻訳システム同様、離散構造から別の離散構造へ変換する処理によってシステムが構成されると言える。このように、前述の自然言語処理システム以外の自然言語処理システムでも、自然言語を扱うシステムでは、扱う対象が単語、文、文書といった離散構造であるため、入力から出力へどのような変換を行うかという定義の違いはあるにせよ、処理のフレームワークは同じであり、離散構造から離散構造の変換問題に帰着できる。図1に自然言語処理における変換問題の各種の例を示す。
近年、ニューラルネットに基づく文字列-文字列変換方法が注目を浴びている。例えば、非特許文献1や非特許文献2では、リカレントニューラルネットの枠組みを使い、離散構造を実数値ベクトルへ符号化し、その実数値ベクトルから離散構造を復号するという方法論で離散構造-離散構造変換問題を実現している。
例えば、非特許文献1では、図2に示すように符号器及び復号器を構成することが開示されている。
ここで、説明のための関数群及び演算子を図3に示す。関数群は、図2に示すように、シグモイド関数をσ、tanh関数をσ、softmax関数をσ、relu関数をσとする。各関数は、ベクトルを入力とし、入力されたベクトルと同じ大きさ(次元数)のベクトルを返す関数である。また各関数は、入力されたベクトルの要素毎に所定の計算をし、入力されたベクトルと同じ要素番号(位置)に結果を格納する。これはベクトルを行列に置き換えた場合についても同様である。
非特許文献1記載の復号器では、復号化ユニットの出力から、以下の式に従って単語を順次予測することにより、系列の単語を予測する。
図2の例の場合には予測した単語は
として出力され、一つ目の単語は「It」となる。
ここで、符号器の構築の原理を説明する。符号器は、符号化ユニットを連結することで符号器全体を構成する。符号化ユニット内部は様々な構成が考えられるが、ここでは例として、リカレントニューラルネット(RNN)により構成する場合と、長短期記憶メモリ(LSTM)により構築する場合の例をあげる。
以下に符号化ユニットをRNNにより構築する場合と、LSTMにより構築する場合の計算式を下記(1)式、(2)式に示す。
各符号化ユニットに入力される情報は、通常の入力ラベルのベクトルxと、接続する符号化ユニットの中間(符号)状態zとなる。
また、非特許文献2では、図4に示すように符号器及び復号器を構成することが開示されている。図4では、一番目の単語を生成する際の処理として、符号器内の各符号化ユニットで得た隠れ層ベクトルから計算されるcと、復号化ユニットの1番目の隠れ層ベクトルh (ただしt=1)を復号器の単語生成ユニットの入力として用いている。
ここで、cは、以下(3)式に従って計算される。

・・・(3)
符号器及び復号器の学習について説明する。符号器及び復号器の学習は、下記、損失関数Ψを最小にするパラメタ
を探索する最小化問題として定式化できる。
パラメタ
は、ニューラルネットワーク内の全てのパラメタの集合である。関数Ψは正解となる単語yn,tと現在のシステムの予測結果on,tとの負のクロスエントロピーに相当する。nは、文番号を表すとし、学習用正解データの数が上限となる。tは、文中の単語番号を表すとする。
Sutskever, Ilya and Vinyals, Oriol and Le, Quoc V.Sequence to Sequence Learning with Neural Networks,Advances in Neural Information Processing Systems 27, pp. 3104-3112, 2014 Dzmitry Bahdanau and Kyunghyun Cho and Yoshua Bengio.Neural Machine Translation by Jointly Learning to Align and Translate ICLR-2015
上記のような従来技術(ニューラルネット等)による方法は、それ以前の方法と比較して一般的に性能が大幅に向上したと言えるが、人間が作成する文章には未だに遠く及ばないのが現状である。
通常、ニューラルネットに基づく系列符号器及び系列復号器による方法では入力文が与えられてから、出力文を生成するまでを一つのネットワークで表現する。
この場合、モデルが単一のネットワークで表現されるため、わかりやすい反面、文章から文章への変換という複雑な主問題を一つのネットワークモデルで表現する方法であるため、機械学習問題の側面では、精度よく変換するためのモデルを学習することが非常に難しい問題である、という側面がある。
本発明は、上記事情を鑑みて成されたものであり、精度よく離散構造を変換するためのパラメタを学習できる符号器学習装置、方法、及びプログラムを提供することを目的とする。
また、精度よく離散構造を変換する変換装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る符号器学習装置は、入力された離散構造を変換する主問題についての正解データに基づいて、前記主問題に対して予め定められた補助問題の正解データを生成する補助問題生成部と、前記入力された離散構造の各要素に対応する、前記要素を符号化する符号化ユニットを接続した符号器であって、前記補助問題の解を予測する予測器を含む符号器と、前記符号器によって出力される符号、及び前記補助問題の解を入力とする、前記離散構造の要素に復号する復号化ユニットを接続した復号器と、前記主問題についての正解データと、前記補助問題の正解データとに基づいて、前記符号化ユニット、前記復号化ユニット、及び前記予測器のパラメタを学習する学習部と、を含んで構成されている。
また、第1の発明に係る符号器学習装置において、前記学習部は、前記入力された離散構造に基づいて、前記符号器を構築する符号器構築部と、前記構築された前記符号器と、パラメタの初期値又は更新された前記パラメタとに基づいて、前記入力された離散構造の各要素を、対応する前記符号化ユニットに入力して、順次計算して、前記入力された離散構造の符号を出力すると共に、前記予測器を計算して前記補助問題の解を予測する符号器計算部と、前記出力された符号及び前記補助問題の解を、前記復号器に入力して、順次計算して、離散構造を出力する復号器計算部と、前記復号器計算部によって出力された離散構造と、前記主問題についての正解データとを用いて表される目的関数の値を計算する目的関数計算部と、記計算された目的関数の値に基づいて前記パラメタを更新するパラメタ更新部と、予め定められた反復終了条件を満たすまで、前記符号器計算部による計算、前記復号器計算部による計算、前記目的関数計算部による計算、及び前記パラメタ更新部による更新を繰り返す終了判定部と、を含むようにしてもよい。
第2の発明に係る変換装置は、入力された離散構造を変換する主問題を解く変換装置であって、前記入力された離散構造に基づいて、前記離散構造の各要素に対応する、前記要素を符号化する符号化ユニットを接続した符号器であって、前記主問題に対して予め定められた補助問題に対応する予測器を含む符号器を構築する符号器構築部と、前記構築された前記符号器に基づいて、前記入力された離散構造の各要素を、対応する前記符号化ユニットに入力して、順次計算して、前記入力された離散構造の符号を出力すると共に、前記予測器を計算して前記補助問題の解を予測する符号器計算部と、前記出力された符号及び前記補助問題の解を、前記離散構造の要素に復号する復号化ユニットを接続した復号器に入力して、順次計算して、離散構造を出力する復号器計算部と、を含んで構成されている。
また、第2の発明に係る変換装置において、前記補助問題を、変換後の離散構造に含まれる要素の集合を予測する問題、変換後の離散構造に含まれる要素の数を予測する問題、及び前記入力された離散構造と、変換後の離散構造とのいずれにも含まれる要素の集合を予測する問題の少なくとも一つであるようにしてもよい。
第3の発明に係る符号器学習方法は、補助問題生成部が、入力された離散構造を変換する主問題についての正解データに基づいて、前記主問題に対して予め定められた補助問題の正解データを生成するステップと、学習部が、前記入力された離散構造の各要素に対応する、前記要素を符号化する符号化ユニットを接続した符号器であって、前記補助問題の解を予測する予測器を含む符号器と、前記符号器によって出力される符号、及び前記補助問題の解を入力とする、前記離散構造の要素に復号する復号化ユニットを接続した復号器と、前記主問題についての正解データと、前記補助問題の正解データとに基づいて、前記符号化ユニット、前記復号化ユニット、及び前記予測器のパラメタを学習するステップと、を含んで実行することを特徴とする。
第4の発明に係る変換方法は、入力された離散構造を変換する主問題を解く変換装置における変換方法であって、符号器構築部が、前記入力された離散構造に基づいて、前記離散構造の各要素に対応する、前記要素を符号化する符号化ユニットを接続した符号器であって、前記主問題に対して予め定められた補助問題に対応する予測器を含む符号器を構築するステップと、符号器計算部が、前記構築された前記符号器に基づいて、前記入力された離散構造の各要素を、対応する前記符号化ユニットに入力して、順次計算して、前記入力された離散構造の符号を出力すると共に、前記予測器を計算して前記補助問題の解を予測するステップと、復号器計算部が、前記出力された符号及び前記補助問題の解を、前記離散構造の要素に復号する復号化ユニットを接続した復号器に入力して、順次計算して、離散構造を出力するステップと、を含んで実行することを特徴とする。
第5の発明に係るプログラムは、コンピュータを、第1の発明に係る符号器学習装置の各部として機能させるためのプログラムである。
第6の発明に係るプログラムは、コンピュータを、第2の発明に係る変換装置の各部として機能させるためのプログラムである。
本発明の符号器学習装置、方法、及びプログラムによれば、離散構造を変換する主問題についての正解データに基づいて、主問題に対して予め定められた補助問題の正解データを生成し、入力された離散構造の各要素に対応する、要素を符号化する符号化ユニットを接続した符号器であって、補助問題の解を予測する予測器を含む符号器と、符号器によって出力される符号、及び補助問題の解を入力とする、離散構造の要素に復号する復号化ユニットを接続した復号器と、主問題についての正解データと、補助問題の正解データとに基づいて、符号化ユニット、復号化ユニット、及び予測器のパラメタを学習することにより、精度よく離散構造を変換するためのパラメタを学習することができる、という効果が得られる。
また、本発明の変換装置、方法、及びプログラムによれば、入力された離散構造に基づいて、離散構造の各要素に対応する、要素を符号化する符号化ユニットを接続した符号器であって、主問題に対して予め定められた補助問題に対応する予測器を含む符号器を構築し、構築された前記符号器に基づいて、入力された離散構造の各要素を、対応する符号化ユニットに入力して、順次計算して、入力された離散構造の符号を出力すると共に、予測器を計算して補助問題の解を予測し、出力された符号及び前記補助問題の解を、復号器に入力して、順次計算して、離散構造を出力することにより、精度よく離散構造を変換することができる、という効果が得られる。
自然言語処理における変換問題の各種の例を示す図である。 非特許文献1に開示されている符号器及び復号器の構成を示す図である。 説明のための関数群及び演算子を表す図である。 非特許文献2に開示されている符号器及び復号器の構成を示す図である。 与えられた文章の要約文を自動で作成する技術を示す図である。 本発明の実施の形態に係る符号器学習装置の構成を示すブロック図である。 要約文に含まれる単語の集合を予測する問題の一例を示す図である。 要約文に含まれる単語の数を予測する問題の一例を示す図である。 入力された文章と、変換後の要約文とのいずれにも含まれる単語の集合を予測する問題の一例を示す図である。 補助問題1の予測器を含む符号器の構成の一例を示す図である。 補助問題2の予測器を含む符号器の構成の一例を示す図である。 補助問題2の予測結果の一例を示す図である。 補助問題3の予測器を含む符号器の構成の一例を示す図である。 本発明の実施の形態に係る変換装置の構成を示すブロック図である。 補助問題1〜3の符号器及び復号器による出力の一例を示す図である。 補助問題1の符号器及び復号器による出力の一例を示す図である。 補助問題1、3の符号器及び復号器による出力の一例を示す図である。 本発明の実施の形態に係る符号器学習装置における符号器学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る変換装置における変換処理ルーチンを示すフローチャートである。 離散構造の対象を翻訳とした場合の、補助問題1の符号器及び復号器の構成の一例を示す図である。 離散構造の対象を翻訳とした場合の、補助問題1、2の符号器及び復号器の構成の一例を示す図である。 離散構造の対象を翻訳とした場合の、補助問題1〜3の符号器及び復号器の構成の一例を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
入力された文章を要約して変換する主問題を解くための符号器学習装置、及び変換装置として説明する。図5に示すように、与えられた文章の要約文を自動で作成する技術は、文章の概要を短時間で把握する目的に極めて有効な手段である。
<本発明の実施の形態に係る符号器学習装置の構成>
次に、本発明の実施の形態に係る符号器学習装置の構成について説明する。図6に示すように、本発明の実施の形態に係る符号器学習装置100は、CPUと、RAMと、後述する符号器学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この符号器学習装置100は、機能的には図6に示すように入力部10と、演算部20と、パラメタDB44とを備えている。
入力部10は、入力された文章を要約文に変換する主問題についての正解データを受け付ける。
演算部20は、補助問題生成部22と、学習部24とを含んで構成されている。
補助問題生成部22は、入力部10で受け付けた文章を要約文に変換する主問題についての正解データに基づいて、主問題に対して予め定められた補助問題の正解データを生成する。
ここで、本実施の形態で扱う補助問題について説明する。
補助問題は、主問題よりも計算コストが少なく簡単であり、かつ、主問題を解くことに関連する問題であることを条件とする。また、主問題に対する正解データから補助問題の学習用正解データを構築できることを条件とする。
補助問題生成部22では、主問題についての正解データに基づいて、以下の補助問題1〜3の正解データを生成する。
補助問題1は、図7に示すような、要約文に含まれる単語の集合を予測する問題である。補助問題1は、主問題に比べて語順を考慮しなくてよいのでその分簡単な問題である。また、補助問題1の学習用正解データは主問題の学習用正解データから語順を取り除いた単語の集合である。
補助問題2は、図8に示すような、要約文に含まれる単語の数を予測する問題である。補助問題2は、1以上の整数を答える問題であり、単語そのものを正解しなくてもよい分簡単な問題である。また、補助問題2の学習用正解データは主問題の学習用正解データの出力単語数である。
補助問題3は、図9に示すような、入力された文章と、変換後の要約文とのいずれにも含まれる単語の集合を予測する問題である。補助問題3は、文章の各単語に正または負をつける問題であり、言い換えられた単語を正解しなくてもよい分簡単な問題である。また、補助問題3の学習用正解データは、主問題の学習用正解データである文章と要約文の単語の積集合で獲得可能な単語の集合である。
学習部24は、以下に説明する各部の処理によって、入力された文章の各単語に対応する、単語を符号化する符号化ユニットを接続した符号器であって、補助問題の解を予測する予測器を含む符号器と、符号器によって出力される符号、及び補助問題の解を入力とする、要約文の単語に復号する復号化ユニットを接続した復号器と、主問題についての正解データと、補助問題1〜3の正解データとに基づいて、符号化ユニット、復号化ユニット、及び予測器のパラメタ
を学習する。
符号化ユニットは、上記(1)式又は(2)式に従って、zoutを出力する。
符号器は、上記(3)式に従って、ベクトルcjを出力する。
ここで、各補助問題の解を予測する予測器について説明する。
補助問題1の予測器を含む符号器は、図10に示すように構成される。補助問題1の予測器は、以下(4)式に従って、補助問題1の解としてswsを出力する。

・・・(4)
補助問題2の予測器を含む符号器は、図11に示すように構成される。補助問題1の予測器は、以下(5)式に従って、補助問題1の解としてswlを出力する。

・・・(5)
補助問題3の予測器を含む符号器は、図12に示すように構成される。補助問題1の予測器は、以下(6)式に従って、補助問題1の解としてsowを出力する。
・・・(6)
次に、復号器の復号化ユニットは、符号化ユニットと同様に、上記(1)式又は(2)式に従って、zoutを出力し、復号器は、復号化ユニットの出力と、符号器の出力cとに基づいて、下記(7)式に従って、単語を予測する。




・・・(7)
上記(7)式のように、補助問題の解を考慮して、単語が予測される。
例えば、復号器の単語生成ユニットの計算において、主問題の解oに、補助問題の解swsと補助問題の解sowを用いて計算された~sをベクトルの要素毎に乗算した~oが求められる。また、復号器の単語生成ユニットの計算において、補助問題の解~swlによって単語数を規定して計算を行う。
学習部24は、符号器構築部30と、符号器計算部32と、復号器計算部34と、予測取得部36と、目的関数計算部38と、パラメタ更新部40と、終了判定部42とを含んで構成されている。
符号器構築部30は、入力された文章に基づいて、符号器を構築する。
符号器計算部32は、符号器構築部30で構築された符号器と、パラメタ
の初期値又は更新されたパラメタ
とに基づいて、入力された文章の各単語を、対応する符号化ユニットに入力して、順次計算して、入力された文章の符号を出力すると共に、予測器を計算して補助問題1〜3の解を予測する。
復号器計算部34は、符号器計算部32から出力された符号及び補助問題1〜3の解を、復号器に入力して、順次計算して、主問題及び補助問題1〜3により解かれた要約文を出力する。
予測取得部36は、復号器計算部34によって計算された主問題及び補助問題1〜3により解かれた要約文を予測結果として取得する。
目的関数計算部38は、予測取得部36で取得した要約文と、主問題についての正解データとを用いて表される目的関数の値を計算する。
ここで、補助問題1〜3の予測器を学習するための目的関数について説明する。
補助問題1についての目的関数は、以下(8)式の損失関数Ψを最小にするパラメタswsを探索する最小化問題として定式化できる。

・・・(8)
関数Ψは正解cwsと現在のシステムの予測結果swsとの負のクロスエントロピーに相当する。swsは、パラメタ
に依存して決定する値である。
補助問題2についての目的関数は、以下(9)式の損失関数Ψを最小にするパラメタswsを探索する最小化問題として定式化できる。

・・・(9)
関数Ψは正解cwlと現在のシステムの予測結果swlとの負のクロスエントロピーに相当する。swsは、パラメタ
に依存して決定する値である。図13に示すように、[cwl−0.5,cwl+0.5]の範囲に予測が入れば損失0で最小値となる。
補助問題3についての目的関数は、以下(10)式の損失関数Ψを最小にするパラメタsowを探索する最小化問題として定式化できる。

・・・(10)
関数Ψは正解cowと現在のシステムの予測結果sowとの負のクロスエントロピーに相当する。sowは、パラメタ
に依存して決定する値である。
目的関数は、以下(11)式に示すように、主問題と補助問題1〜3の全ての目的関数を統合して同時に学習を行う。

・・・(11)
学習の手順としては、(1)現在のパラメタ
で入力された主問題及び補助問題1〜3の正解データに対する予測結果を取得する(符号器計算部32〜予測取得部36までの処理)。(2)予測結果(出力された要約文)と、主問題及び補助問題1〜3の正解データとを用いて、主問題及び各補助問題のそれぞれの損失関数を計算する。(3)損失関数の値にしたがって、勾配を計算する。(4)chain ruleにしたがって各パラメタ単位の勾配の値を取得する。
パラメタ更新部40は、目的関数計算部38で計算された目的関数の値に基づいてパラメタ
を更新する。ここでは、上記目的関数計算部38の学習の手順(4)で得られた値に従ってパラメタ
を更新する。
終了判定部42は、予め定められた反復終了条件を満たすまで、符号器計算部32による計算、復号器計算部34による計算、予測取得部36による取得、目的関数計算部38による計算、及びパラメタ更新部40による更新を繰り返す。そして、最終的にパラメタ更新部40で更新されたパラメタ
をパラメタDB44に格納する。
<本発明の実施の形態に係る変換装置の構成>
次に、本発明の実施の形態に係る変換装置の構成について説明する。図14に示すように、本発明の実施の形態に係る変換装置200は、CPUと、RAMと、後述する変換処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この変換装置200は、機能的には図14に示すように入力部210と、演算部220と、出力部250とを備えている。
入力部210は、要約の対象となる、離散構造を持つ文章を受け付ける。
演算部20は、符号器構築部230と、符号器計算部232と、復号器計算部234と、パラメタDB244とを含んで構成されている。
符号器構築部230は、入力部210で受け付けた文章に基づいて、文章の各単語に対応する、単語を符号化する符号化ユニットを接続した符号器であって、主問題に対して予め定められた補助問題1〜3に対応する予測器を含む符号器を構築する。ここでは、符号器学習装置100の符号器構築部30と同様に符号器を構築すればよい。
パラメタDB244には、符号器学習装置100で学習されたパラメタ
が格納されている。
符号器計算部232は、符号器構築部230で構築された符号器に基づいて、入力された文章の各単語を、対応する符号化ユニットに入力して、順次計算して、入力された文章の符号を出力すると共に、上記(3)〜(5)式に従って、パラメタDB244に格納されているパラメタ
を用いて、予測器を計算して補助問題1〜3の解を予測する。
復号器計算部234は、符号器計算部232から出力された符号及び補助問題の解を、復号器に入力して、順次計算して、主問題及び補助問題1〜3が解かれた要約文を出力部250に出力する。単語を出力するまでの具体的な処理は、符号器学習装置100の学習部24において説明した処理と同様である。
予測器を用いた補助問題1〜3の計算と復号器から出力される要約文の例を図15に示す。復号器の単語生成ユニットの計算において、補助問題2の解~swlによって単語数を規定して、主問題の解oに~sをベクトルの要素毎に乗算した~oが求められる。は、補助問題1の解sws、及び補助問題3の解sowを乗算して得たものである。補助問題2の解~swlを用いて、単語数を規定して計算を行う場合には、例えば規定された単語数が10語であれば10語分の単語生成ユニットを計算して終了する。補助問題3の解sowを用いて計算を行う場合には、例えば、ある単語が出力側の単語リストに入っている場合には、その単語リストの単語に対する単語の集合の予測結果の確率を修正する。出力側の単語リストに入っていない(未知語)時には、未知語(UNK)と判定された際に、attentionの確率ai,jがもっとも高い入力単語が同一単語と予測されていれば、その単語で置き換える。
なお、補助問題1のみの解を考慮する場合を図16に示す。また、補助問題1、3の解を考慮する場合を図17に示す。
<本発明の実施の形態に係る符号器学習装置の作用>
次に、本発明の実施の形態に係る符号器学習装置100の作用について説明する。入力部10において、入力された文章を要約文に変換する主問題についての正解データを受け付けると符号器学習装置100は、図18に示す符号器学習処理ルーチンを実行する。
まず、ステップS100では、入力部10で受け付けた文章を要約文に変換する主問題についての正解データに基づいて、主問題に対して予め定められた補助問題1〜3の正解データを生成する。
次に、ステップS102では、入力された文章に基づいて、入力された文章の各単語に対応する、単語を符号化する符号化ユニットを接続した符号器を構築する。
ステップS104では、ステップS102で構築された符号器と、パラメタ
の初期値又は更新されたパラメタ
とに基づいて、入力された文章の各単語を、対応する符号化ユニットに入力して、順次計算して、入力された文章の符号を出力すると共に、予測器を計算して補助問題の解を予測する。
ステップS106では、ステップS104で出力された符号及び補助問題の解を、復号器に入力して、上記(7)式に従って、順次計算して、主問題及び補助問題により解かれた要約文を出力する。
ステップS108では、ステップS106で計算された主問題及び補助問題により解かれた要約文を予測結果として取得する。
ステップS110では、上記(11)式に従って、ステップS108で取得した要約文と、主問題についての正解データとを用いて表される目的関数の値を計算する。
ステップS112では、ステップS110で計算された目的関数の値に基づいてパラメタ
を更新する。
ステップS114では、反復終了条件を満たすか否かを判定し、反復終了条件を満たしていればステップS112で更新されたパラメタ
をパラメタDB44に格納して処理を終了し、反復終了条件を満たしていなければステップS104に戻って処理を繰り返す。また、主問題についての正解データを複数受け付けた場合には、主問題についての正解データ毎に、上記ステップS100〜S114の処理を繰り返せばよい。
以上説明したように、本発明の実施の形態に係る符号器学習装置によれば、入力された文章を要約する主問題についての正解データに基づいて、主問題に対して予め定められた補助問題の正解データを生成し、入力された文章の各単語に対応する、単語を符号化する符号化ユニットを接続した符号器であって、補助問題の解を予測する予測器を含む符号器と、符号器によって出力される符号、及び補助問題の解を入力とする、単語に復号する復号化ユニットを接続した復号器と、主問題についての正解データと、補助問題の正解データとに基づいて、符号化ユニット、復号化ユニット、及び予測器のパラメタを学習することにより、精度よく要約文に変換するためのパラメタを学習することができる。
<本発明の実施の形態に係る変換装置の作用>
次に、本発明の実施の形態に係る変換装置200の作用について説明する。入力部210において、要約の対象となる、離散構造を持つ文章を受け付けると、変換装置200は、図19に示す変換処理ルーチンを実行する。
まず、ステップS200では、入力部210において受け付けた文章に基づいて、文章の各単語に対応する、単語を符号化する符号化ユニットを接続した符号器であって、主問題に対して予め定められた補助問題に対応する予測器を含む符号器を構築する。
次に、ステップS202では、ステップS202で構築された符号器に基づいて、入力された文章の各単語を、対応する符号化ユニットに入力して、上記(7)式に従って、順次計算して、入力された文章の符号を出力すると共に、パラメタDB244に格納されているパラメタ
を用いて、予測器を計算して補助問題1〜3の解を予測する。
ステップS204では、ステップS202で出力された符号及び補助問題の解を、復号器に入力して、順次計算して、主問題及び補助問題が解かれた要約文を出力部250に出力して処理を終了する。
以上説明したように、本発明の実施の形態に係る変換装置によれば、入力された文章に基づいて、入力された文章の各単語に対応する、単語を符号化する符号化ユニットを接続した符号器であって、主問題に対して予め定められた補助問題に対応する予測器を含む符号器を構築し、構築された符号器に基づいて、入力された文章の各単語を、対応する符号化ユニットに入力して、順次計算して、入力された文章の符号を出力すると共に、予測器を計算して補助問題の解を予測し、出力された符号及び補助問題の解を、復号器に入力して、順次計算して、要約文を出力することにより、精度よく要約文に変換することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態の符号器学習装置100では、補助問題1〜3についての正解データを生成して、符号器及び復号器で用いるパラメタ
を学習していたが、これに限定されるものではなく、補助問題1〜3をそれぞれ独立して正解データを生成し、符号器及び復号器で用いるパラメタ
を学習するようにしてもよい。また、補助問題1〜3以外の補助問題の正解データを生成して、パラメタ

を学習するようにしてもよい。
また、上述した実施の形態の変換装置200では、補助問題1〜3の解を予測する場合を例に説明したが、これに限定されるものではなく、補助問題1〜3以外の解を予測するようにしてもよい。
また、上述した実施の形態では、文章を入力とし、要約文を出力する場合を例に説明したが、これに限定されるものではなく、本発明の実施の形態に係る手法は、離散構造を変換する問題であればどのような分野でも適用することができる。例えば文章を翻訳して他言語に変換する主問題にも適用することができ、この翻訳の主問題に適用する場合には、符号器及び復号器は例えば図20〜22のように構成することができる。図20では、補助問題1の解を考慮する符号器及び復号器を示しており、図21では、補助問題1、2の解を考慮する符号器及び復号器を示しており、図22では、補助問題1〜3の解を考慮する符号器及び復号器を示している。
また、本発明は、上記のような言語処理以外にもグラフなどの離散構造を持つ対象の場合についても同様に適用することができる。
10、210 入力部
20、220 演算部
22 補助問題生成部
24 学習部
30、230 符号器構築部
32、232 符号器計算部
34、234 復号器計算部
36 予測取得部
38 目的関数計算部
40 パラメタ更新部
42 終了判定部
100 符号器学習装置
200 変換装置
250 出力部

Claims (8)

  1. 入力された離散構造を変換する主問題についての正解データに基づいて、前記主問題に対して予め定められた補助問題の正解データを生成する補助問題生成部と、
    前記入力された離散構造の各要素に対応する、前記要素を符号化する符号化ユニットを接続した符号器であって、前記補助問題の解を予測する予測器を含む符号器と、前記符号器によって出力される符号、及び前記補助問題の解を入力とする、前記離散構造の要素に復号する復号化ユニットを接続した復号器と、前記主問題についての正解データと、前記補助問題の正解データとに基づいて、前記符号化ユニット、前記復号化ユニット、及び前記予測器のパラメタを学習する学習部と、
    を含む符号器学習装置。
  2. 前記学習部は、
    前記入力された離散構造に基づいて、前記符号器を構築する符号器構築部と、
    前記構築された前記符号器と、パラメタの初期値又は更新された前記パラメタとに基づいて、前記入力された離散構造の各要素を、対応する前記符号化ユニットに入力して、順次計算して、前記入力された離散構造の符号を出力すると共に、前記予測器を計算して前記補助問題の解を予測する符号器計算部と、
    前記出力された符号及び前記補助問題の解を、前記復号器に入力して、順次計算して、離散構造を出力する復号器計算部と、
    前記復号器計算部によって出力された離散構造と、前記主問題についての正解データとを用いて表される目的関数の値を計算する目的関数計算部と、
    前記計算された目的関数の値に基づいて前記パラメタを更新するパラメタ更新部と、
    予め定められた反復終了条件を満たすまで、前記符号器計算部による計算、前記復号器計算部による計算、前記目的関数計算部による計算、及び前記パラメタ更新部による更新を繰り返す終了判定部と、を含む請求項1記載の符号器学習装置。
  3. 入力された離散構造を変換する主問題を解く変換装置であって、
    前記入力された離散構造に基づいて、前記離散構造の各要素に対応する、前記要素を符号化する符号化ユニットを接続した符号器であって、前記主問題に対して予め定められた補助問題に対応する予測器を含む符号器を構築する符号器構築部と、
    前記構築された前記符号器に基づいて、前記入力された離散構造の各要素を、対応する前記符号化ユニットに入力して、順次計算して、前記入力された離散構造の符号を出力すると共に、前記予測器を計算して前記補助問題の解を予測する符号器計算部と、
    前記出力された符号及び前記補助問題の解を、前記離散構造の要素に復号する復号化ユニットを接続した復号器に入力して、順次計算して、離散構造を出力する復号器計算部と、
    を含む変換装置。
  4. 前記補助問題を、変換後の離散構造に含まれる要素の集合を予測する問題、変換後の離散構造に含まれる要素の数を予測する問題、前記入力された離散構造と、変換後の離散構造とのいずれにも含まれる要素の集合を予測する問題、及びそれ以外の主問題の正解データから生成できる正解データを用いて学習可能な補助問題の少なくとも一つである請求項3に記載の変換装置。
  5. 補助問題生成部が、入力された離散構造を変換する主問題についての正解データに基づいて、前記主問題に対して予め定められた補助問題の正解データを生成するステップと、
    学習部が、前記入力された離散構造の各要素に対応する、前記要素を符号化する符号化ユニットを接続した符号器であって、前記補助問題の解を予測する予測器を含む符号器と、前記符号器によって出力される符号、及び前記補助問題の解を入力とする、前記離散構造の要素に復号する復号化ユニットを接続した復号器と、前記主問題についての正解データと、前記補助問題の正解データとに基づいて、前記符号化ユニット及び前記予測器のパラメタを学習するステップと、
    を含む符号器学習方法。
  6. 入力された離散構造を変換する主問題を解く変換装置における変換方法であって、
    符号器構築部が、前記入力された離散構造に基づいて、前記離散構造の各要素に対応する、前記要素を符号化する符号化ユニットを接続した符号器であって、前記主問題に対して予め定められた補助問題に対応する予測器を含む符号器を構築するステップと、
    符号器計算部が、前記構築された前記符号器に基づいて、前記入力された離散構造の各要素を、対応する前記符号化ユニットに入力して、順次計算して、前記入力された離散構造の符号を出力すると共に、前記予測器を計算して前記補助問題の解を予測するステップと、
    復号器計算部が、前記出力された符号及び前記補助問題の解を、前記離散構造の要素に復号する復号化ユニットを接続した復号器に入力して、順次計算して、離散構造を出力するステップと、
    を含む変換方法。
  7. コンピュータを、請求項1又は2記載の符号器学習装置の各部として機能させるためのプログラム。
  8. コンピュータを、請求項3記載の変換装置の各部として機能させるためのプログラム。
JP2016212964A 2016-10-31 2016-10-31 符号器学習装置、変換装置、方法、及びプログラム Active JP6633999B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016212964A JP6633999B2 (ja) 2016-10-31 2016-10-31 符号器学習装置、変換装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016212964A JP6633999B2 (ja) 2016-10-31 2016-10-31 符号器学習装置、変換装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018073163A true JP2018073163A (ja) 2018-05-10
JP6633999B2 JP6633999B2 (ja) 2020-01-22

Family

ID=62115533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016212964A Active JP6633999B2 (ja) 2016-10-31 2016-10-31 符号器学習装置、変換装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6633999B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019207566A (ja) * 2018-05-29 2019-12-05 富士通株式会社 学習方法、学習プログラム及び学習装置
JP2022503812A (ja) * 2018-11-29 2022-01-12 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 文処理方法、文復号方法、装置、プログラム及び機器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219345A (ja) * 1998-02-02 1999-08-10 Hitachi Ltd 時系列データの予測方法およびシステム
JP2012079286A (ja) * 2010-09-30 2012-04-19 Nippon Telegr & Teleph Corp <Ntt> 構造予測モデル学習装置、方法、プログラム、及び記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219345A (ja) * 1998-02-02 1999-08-10 Hitachi Ltd 時系列データの予測方法およびシステム
JP2012079286A (ja) * 2010-09-30 2012-04-19 Nippon Telegr & Teleph Corp <Ntt> 構造予測モデル学習装置、方法、プログラム、及び記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BAHDANAU, DZMITRY ET AL., NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE, vol. v7, JPN6019047784, 19 May 2016 (2016-05-19), pages 1 - 15, ISSN: 0004169030 *
菊池 悠太 ほか: "Encoder−Decoderモデルにおける出力長制御", 情報処理学会 研究報告 自然言語処理(NL) 2016−NL−227 [ONLINE], JPN6019047781, 1 August 2016 (2016-08-01), JP, pages 1 - 9, ISSN: 0004169029 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019207566A (ja) * 2018-05-29 2019-12-05 富士通株式会社 学習方法、学習プログラム及び学習装置
JP7056381B2 (ja) 2018-05-29 2022-04-19 富士通株式会社 学習方法、学習プログラム及び学習装置
JP2022503812A (ja) * 2018-11-29 2022-01-12 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 文処理方法、文復号方法、装置、プログラム及び機器
JP7229345B2 (ja) 2018-11-29 2023-02-27 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 文処理方法、文復号方法、装置、プログラム及び機器

Also Published As

Publication number Publication date
JP6633999B2 (ja) 2020-01-22

Similar Documents

Publication Publication Date Title
US11501182B2 (en) Method and apparatus for generating model
CN111401084B (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
CN108804611B (zh) 一种基于自我评论序列学习的对话回复生成方法及系统
CN111444311A (zh) 语义理解模型训练方法、装置、计算机设备和存储介质
CN111222317A (zh) 序列标注方法、系统和计算机设备
US11475225B2 (en) Method, system, electronic device and storage medium for clarification question generation
US20220343139A1 (en) Methods and systems for training a neural network model for mixed domain and multi-domain tasks
CN110807335B (zh) 基于机器学习的翻译方法、装置、设备及存储介质
CN107766319B (zh) 序列转换方法及装置
JPWO2019167296A1 (ja) 自然言語処理のための装置、方法及びプログラム
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
Cox Syntactically informed text compression with recurrent neural networks
CN111813923A (zh) 文本摘要方法、电子设备及存储介质
JP2019149030A (ja) 学習品質推定装置、方法、及びプログラム
JP2019091172A (ja) 句構造学習装置、句構造解析装置、方法、及びプログラム
JP2017010249A (ja) パラメタ学習装置、文類似度算出装置、方法、及びプログラム
JP6633999B2 (ja) 符号器学習装置、変換装置、方法、及びプログラム
CN116680575B (zh) 模型处理方法、装置、设备及存储介质
JP6586026B2 (ja) 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム
CN116955644A (zh) 基于知识图谱的知识融合方法、系统及存储介质
WO2023108981A1 (zh) 文本生成模型的训练方法、装置、存储介质及计算机设备
JP2017211785A (ja) 質問応答生成装置、方法、及びプログラム
JP6712973B2 (ja) 文生成装置、文生成学習装置、文生成方法、及びプログラム
JP6550677B2 (ja) 符号化装置、復号化装置、離散系列変換装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191213

R150 Certificate of patent or registration of utility model

Ref document number: 6633999

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150