JP7290861B2 - 質問応答システムのための回答分類器及び表現ジェネレータ、並びに表現ジェネレータを訓練するためのコンピュータプログラム - Google Patents

質問応答システムのための回答分類器及び表現ジェネレータ、並びに表現ジェネレータを訓練するためのコンピュータプログラム Download PDF

Info

Publication number
JP7290861B2
JP7290861B2 JP2019133710A JP2019133710A JP7290861B2 JP 7290861 B2 JP7290861 B2 JP 7290861B2 JP 2019133710 A JP2019133710 A JP 2019133710A JP 2019133710 A JP2019133710 A JP 2019133710A JP 7290861 B2 JP7290861 B2 JP 7290861B2
Authority
JP
Japan
Prior art keywords
question
answer
expression
passage
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019133710A
Other languages
English (en)
Other versions
JP2021018588A5 (ja
JP2021018588A (ja
Inventor
鍾勲 呉
一真 門脇
ジュリアン クロエツェー
龍 飯田
健太郎 鳥澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2019133710A priority Critical patent/JP7290861B2/ja
Priority to US17/622,798 priority patent/US20220253599A1/en
Priority to PCT/JP2020/026360 priority patent/WO2021014951A1/ja
Publication of JP2021018588A publication Critical patent/JP2021018588A/ja
Publication of JP2021018588A5 publication Critical patent/JP2021018588A5/ja
Application granted granted Critical
Publication of JP7290861B2 publication Critical patent/JP7290861B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は質問応答システムに関し、特に、自然言語で入力された質問に対し、回答を含む可能性があるパッセージをテキストアーカイブから抽出する質問応答システムに用いられ、パッセージを正しい回答を含むものとそうでないものとに分類する回答分類器、その回答分類器で使用される表現ジェネレータ、並びにその表現ジェネレータを訓練するためのコンピュータプログラムに関する。
自然言語処理を用いたなぜ型質問応答システムとして、後掲の特許文献1に開示されたものがある。図1にそのなぜ型質問応答システム30の概略構成を示す。なぜ型質問応答システムの場合、なに型質問応答システムと異なり、回答となる可能性が高い文の集合からなる複数のパッセージ(以下「パッセージ群」という。各パッセージに含まれる文は5から7個である。)をテキストアーカイブから抽出し、その中から質問に対する回答として最もふさわしいものを選択するものが多い。ここでパッセージとは、テキスト中の連続する複数の文からなるものをいう。このなぜ型質問応答システム30もそのようなシステムだが、その前提として、質問が与えられるとその質問に対する正しい回答を含む可能性が高い複数のパッセージをテキストアーカイブから抽出して出力する回答候補検索システム34を利用する。
図1を参照して、特許文献1に開示されたなぜ型質問応答システム30は、自然言語の音声からなる質問32を受付け、質問をテキスト化して出力する質問受付部50と、質問受付部50が出力する質問のテキストを既存の回答候補検索システム34に与え、その回答候補として複数のパッセージ(回答パッセージ)群を受信する応答受信部52と、応答受信部52が受信した回答パッセージを記憶する回答パッセージ記憶部54とを含む。
なぜ型質問応答システム30はさらに、ウェブ上に存在する大量のテキストを予め収集し記憶するウェブアーカイブ記憶部56と、ウェブアーカイブ記憶部56に記憶されているウェブアーカイブから、因果関係を表していると考えられる表現を抽出する因果関係表現抽出部58とを含む。因果関係表現抽出部58としては色々なものが考えられる。なぜ型質問の場合、因果関係を表す表現がその回答を抽出する上で重要である。特許文献1に開示されたシステムでは、「なぜなら」のような手掛かり語又は「Aが原因でBが起こる」のような特定の因果関係パターンを用いて回答パッセージ中の因果関係を認識するものが挙げられている。
なぜ型質問応答システム30はさらに、回答パッセージ記憶部54に記憶された回答パッセージの各々と、因果関係表現抽出部58により抽出された因果関係に関する知識と、質問受付部50から受けたテキスト化された質問66とから、そのパッセージが質問66に対する回答としてふさわしいか否かを判定するための特徴量を抽出する特徴量抽出部60と、処理対象である回答パッセージと、特徴量抽出部60により抽出された特徴量とを入力として、その回答パッセージが質問66に対する回答としてふさわしいか否かを示す尤度(その質問が、その回答パッセージに対する質問である確率)をスコアとして算出するように予め訓練されたコンボリューショナル・ニューラル・ネットワーク(以下「CNN」という。)62と、CNN62により各回答パッセージに対して算出されたスコアに基づいて回答パッセージをランキングし、最上位のスコアを持つ回答パッセージを質問32に対する回答36として出力する回答候補ランキング部64とを含む。
このなぜ型質問応答システム30は、質問受付部50により質問32をテキストに変換し応答受信部52と特徴量抽出部60とに与える。応答受信部52はこのテキストを回答候補検索システム34に与える。回答候補検索システム34はこの質問に対する回答を含む可能性の高いパッセージ群を、図示しないテキストアーカイブから検索し応答受信部52に与える。これらパッセージ群は回答パッセージ記憶部54に記憶される。
一方、因果関係表現抽出部58はウェブアーカイブ記憶部56に記憶されたウェブ上のテキストから因果関係表現を抽出し特徴量抽出部60に与える。
特徴量抽出部60は、回答パッセージ記憶部54に記憶された複数のパッセージの各々について、そのパッセージと、テキスト化された質問66と、因果関係表現抽出部58に記憶された因果関係表現とから、そのパッセージが質問32の回答としてふさわしいか否かを判定するための予め定められた特徴量を抽出する。この特徴量はCNN62に与えられる。CNN62は、特徴量抽出部60から与えられた特徴量と、回答パッセージ記憶部54に記憶された、処理対象のパッセージとを受けて、そのパッセージが質問32の回答としてふさわしいか否かを示すスコアを算出しそのパッセージと組合せて出力する。
回答候補ランキング部64は、回答パッセージ記憶部54に記憶された各パッセージについてCNN62が算出したスコアに基づいてパッセージをランキングし、最もスコアの高いパッセージを回答36として出力する。
特開2017-49681号公報
なぜ型質問の場合、その回答としては、その質問を結果部分に持つような因果関係表現の原因部分がふさわしい。特許文献1では、応答受信部52により抽出された回答候補であるパッセージ群の中から、因果関係表現に基づいて回答として最も適切なパッセージを抽出できる。したがって特許文献1によれば、従来と比較してなぜ型質問に対する回答としてよりふさわしいものを選択できるとされている。
しかし、特許文献1に開示された発明に限らず、多くの場合、依然として各パッセージにノイズが含まれるという問題がある。この問題のため、各パッセージを正しくスコアリングすることがむずかしい。その結果、パッセージ群から回答となるパッセージを正しく選択する方法にはまだ改善の余地があると考えられる。
例えば図2を参照して、「Why does honey last a long time?」という質問90を考える。この質問90に対しては例えば回答パッセージ92が得られる。この回答パッセージ92は回答として正しい例(正例)と考えられる。
図3に、図2の回答パッセージ92の中で着目すべき部分を示す。図3を参照して、この回答パッセージ92は、「Honey can last a long time」という表現94を含む。この表現94は、この回答パッセージ92が質問90と関連していることを示す部分である。回答候補検索システム34は、このような部分に着目し、その部分を含むパッセージを回答候補として出力する。一方、回答パッセージ92の中で下線を引いた部分96は質問に対する回答に関連する部分と考えられる。また、表現94以外でかつ下線が引かれていない部分は、質問90とは直接の関連がない部分である。これらがノイズに相当する。
これに対し、図4に示す回答パッセージ100は、質問90に関連する部分102を持つが、それ以外の部分、特に下線を引いた部分104は質問にも回答にも関係がない。これらは正例のノイズと似たような部分と考えられる。このように質問に対する回答と関連する部分がないパッセージは捨てる必要がある。
なぜ型質問応答システムでは、パッセージ群から回答に関連する部分の割合が大きなパッセージを選択する必要がある。そのためには、パッセージが、回答に関連する部分を多く含むか否かを高い確率で正しく判定する必要がある。
したがってこの発明は、質問に対する回答候補であるパッセージが、質問に対する回答に関連するか否かによりパッセージを高精度で分類する回答分類器、その回答分類器で用いられ、回答分類器に入力するための、パッセージの表現を生成するための表現ジェネレータを訓練するコンピュータプログラム、及びその表現ジェネレータを提供することを目的とする。
この発明の第1の局面に係るコンピュータプログラムは、コンピュータによる自然言語処理において、コンピュータを、自然言語からなる質問とその質問と組になる入力とが与えられると、当該入力を表現する第1の表現ベクトルを出力する第1の表現ジェネレータと、質問と当該質問に対する回答とが与えられると、第1の表現ベクトルと同一形式で、回答を表現する第2の表現ベクトルを出力する第2の表現ジェネレータと、第1の表現ベクトル又は第2の表現ベクトルの入力を受け、当該入力された表現ベクトルが第1の表現ベクトルか第2の表現ベクトルかを判定するための分別器と、第1の表現ベクトルに対する誤判定ができるだけ大きくなるように、かつ、第2の表現ベクトルに対する誤判定ができるだけ小さくなるように、分別器及び第1の表現ジェネレータを敵対的学習により訓練する敵対的学習部として動作させる。
好ましくは、第1の表現ジェネレータは、質問と、当該質問に対する回答を含む可能性がある1又は複数の文を含むパッセージとが与えられると、当該パッセージから、質問に対する回答を表現する第1の表現ベクトルを出力するベクトル出力手段を含む。
より好ましくは、第1の表現ジェネレータは、質問と、ランダムに選択された1又は複数の文を含むパッセージとが与えられると、当該パッセージ及び質問から、質問に対する回答を表現する第1の表現ベクトルを出力するベクトル出力手段を含む。
さらに好ましくは、第1の表現ジェネレータは、質問と、ランダムな要素からなるランダムベクトルとが与えられると、当該ランダムベクトル及び質問から、質問に対する回答を表現する第1の表現ベクトルを出力するベクトル出力手段を含む。
この発明の第2の局面に係る表現ジェネレータは、上記したいずれかのコンピュータプログラムにより訓練された、パッセージから第1の表現を生成するものである。
この発明の第3の局面に係る回答分類器は、質問と、当該質問に対する回答を含む可能性があるパッセージとの入力を受け、当該パッセージから得られる、質問に対する回答の表現である第1の表現ベクトルを出力する、上記した表現ジェネレータと、パッセージと、第1の表現ベクトルと、質問とを受け、第1の表現ベクトルと質問とによるアテンションが加えられた、パッセージをエンコードする表現ベクトルを出力するパッセージエンコーダと、質問と、パッセージとを受け、パッセージによるアテンションが加えられた、質問の表現ベクトルを出力する質問エンコーダと、第1の表現ベクトル、パッセージの表現ベクトル、及び質問の表現ベクトルを受け、パッセージ質問に対する正しい回答と誤った回答とに分類するように予め訓練された判定部とを含む。
この出願に係る発明の目的、構成及び効果は、以下の図面とともに発明を実施するための形態の説明を参照することにより、より明確になるであろう。
図1は、特許文献1に開示のなぜ型質問応答システムの概略構成を示すブロック図である。 図2は、質問とその質問に対する回答パッセージの正例とを示す図である。 図3は、質問とその質問に対する回答パッセージの正例とを示す図である。 図4は、質問とその質問に対する回答パッセージの負例とを示す図である。 図5は、質問とその質問に対する回答パッセージの正例と、正例から作成したコア回答とを示す図である。 図6は、一般的な敵対的学習の仕組みを説明するための模式図である。 図7は、敵対的学習を使用してパッセージから人手により作成したコア回答と同様のコア回答を作成する偽物ジェネレータの訓練をする仮想的なシステムの仕組みを説明するための模式図である。 図8は、この発明の第1の実施の形態に係る、パッセージに基づき人手により作成したコア回答から得られる表現と同様の表現を作成する偽物表現ジェネレータの訓練をするシステムの仕組みを説明するための模式図である。 図9は、図8に示すシステムによる敵対的学習を実現するプログラムのメインルーチンの制御構造を示すフローチャートである。 図10は、図9に示すプログラムの中で、偽物表現ジェネレータのパラメータ学習を行うためのルーチンの制御構造を示すフローチャートである。 図11は、図8に仕組みを示したシステムにより訓練された偽物表現ジェネレータを用いて、あるパッセージが質問に対する回答として正しいか否かを判定する回答分類器の構造を示すブロック図である。 図12は、図8に示す偽物表現ジェネレータを構成するエンコーダの基本的構成を示すブロック図である。 図13は、この発明の第1の実施の形態に係る偽物表現ジェネレータを用いた、図11に示す回答分類器による分類精度を、従来の回答分類器による精度と対比して表形式で示す図である。 図14は図13と同じ表で、この発明の第1の実施の形態に係る偽物表現ジェネレータを用いた回答分類器による分類性能が、コア回答表現を採用することにより向上したことを示す図である。 図15は図13と同じ表で、この発明の第1の実施の形態で用いたコア回答表現による偽物表現ジェネレータを採用した回答分類器による分類性能の向上が、他のコア回答の表現を用いたものより大きなことを示す図である。 図16は、この発明の第2の実施の形態に係る偽物表現ジェネレータを訓練するシステムの仕組みを説明するための模式図である。 図17は、この発明の第3の実施の形態に係る偽物表現ジェネレータを訓練するシステムの仕組みを説明するための模式図である。 図18は、この発明の第1、第2、及び第3の実施の形態に係る偽物表現ジェネレータをそれぞれ採用した回答分類器の精度を基準値と対比して表形式で示す図である。 図19は、従来のOpenQAシステムの処理過程を示す模式図である。 図20は、図19に示すOpenQAシステムの構成を示すブロック図である。 図21は、この発明の実施の形態に係る偽物表現ジェネレータを採用したOpenQAシステムの処理過程を示す模式図である。 図22は、この発明の実施の形態に係る偽物表現ジェネレータを採用したOpenQAシステムの構成を示すブロック図である。 この発明の各実施の形態に係る偽物表現ジェネレータの訓練システム、偽物表現ジェネレータ、及び回答分類器を実現するコンピュータシステムの外観を示す図である。 図23に外観を示すコンピュータシステムのハードウェア構成を示すブロック図である。
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。
[第1の実施の形態]
〔敵対的学習(GAN)〕
上記した特許文献1に開示されたなぜ型質問応答システムは、既存のテキストから質問に対する回答候補のパッセージ群を抽出し、その中で回答として最も適切なパッセージを選択している。これに対して、回答候補のパッセージの中で、回答に関連する部分から「質問が求める原因」のみを要約することが考えられる。そのような要約を以下では「コア回答」と呼ぶ。
図5を参照して、例えば質問90に対して回答パッセージ92が得られたものとする。この回答パッセージ92に基づいて人手で作成したコア回答の例が図5に示すコア回答110である。このコア回答110と回答パッセージ92とを比較すると分かるように、コア回答110は回答パッセージ92に含まれるパッセージの中で、質問90に対する回答としてふさわしい部分のみから作成された、質問90に対する的確な回答となっている。
人間の場合、正例のパッセージを要約してそのようなコア回答を作成することはそれほど難しくない。しかしこのようなコア回答をコンピュータによる自動処理で高精度に作成することは極めてむずかしい。
コンピュータによる自動処理で回答パッセージからコア回答を作成できる可能性がある技術として、敵対的学習(Generative Adversarial Network)という機械学習技術がある。GANは特に画像の生成に適用されることが多く、例えば写真とほとんど区別できないような偽の画像(偽物)を生成したりできる。自然言語処理においても、コア回答の生成に威力を発揮する可能性がある。
図6に、GANを用いて基本的構成を示す。図6を参照して、このGANは、偽物ジェネレータ144の学習を行うためのものである。偽物ジェネレータ144としては、例えば偽画像を生成するものが考えられる。
このGAN130は、ノイズ142をサンプリングし、サンプリングしたノイズから偽物のデータ(たとえば画像)146を生成する偽物ジェネレータ144と、本物のデータ140又は偽物のデータ146の入力を受けて、それらが本物か偽物かを分別し分別結果150を出力するための分別器148とを含む。分別器148は、本物のデータ140は本物、偽物のデータ146は偽物と正しく分類するように訓練される。偽物ジェネレータ144は、分別器148が偽物のデータ146を本物と誤って分類する確率が最大となるように自己のパラメータの学習を行う。分別器148と偽物ジェネレータ144とは交互に訓練を行い、最終的に分別器148の判定が50%となった時点、又は、指定の繰返し回数の学習が終了した時点で訓練を終了する。この訓練が終了したときには、偽物ジェネレータ144は分別器148が本物か偽物かを正しく判定することが難しいほど、本物のデータ140に近い偽物データを生成することが可能になっている。
〔コア回答生成へのGANの適用〕
上記したコア回答をパッセージから自動的に偽物ジェネレータ144が生成できるようにすることを当面の目標として、それを実現するためのシステムとして考えられる仮想的なGANの構成を図7に示す。図7を参照して、このGAN180は、パッセージ190及び質問191から偽物コア回答198を生成するよう訓練される偽物ジェネレータ196と、パッセージ190及び質問191に基づいて人手によるコア回答作成192により作成されたコア回答194及び偽物ジェネレータ196が生成した偽物コア回答198とを用い、人手により作成したコア回答194は本物と、偽物ジェネレータ196により作成された偽物コア回答198は偽物と、それぞれ正しく分別して分別結果202を出力するよう訓練される分別器200とを含む。偽物ジェネレータ196及び分別器200はいずれもニューラルネットワークである。
GAN180は、コア回答194については本物、偽物コア回答198については偽物とは分別するように(分別の誤りを最小化するように)分別器200の訓練を行う。一方、パッセージ190から偽物ジェネレータ196が生成した偽物コア回答198について分別器200が本物と判別する確率(分別の誤りの確率)が最大となるように偽物ジェネレータ196の訓練を行う。これはゲーム理論に基づくものであって、最終的にはナッシュ均衡に達し、分別器200が分別を正しく行う確率は50%となる。こうして訓練された偽物ジェネレータ196を用いてパッセージ190からコア回答を生成すれば、そのコア回答は人手により作成したコア回答194と区別ができないようなものとなる可能性もある。
しかし、以下に述べる実施の形態に係るGANは、パッセージ190から偽物コア回答を生成するように偽物ジェネレータを訓練するのではなく、偽物コア回答198の何らかの表現(偽物表現)が得られるように偽物ジェネレータを敵対的学習により訓練する、というものである。後述するようにこのような工夫をして得た偽物ジェネレータ(以下「偽物表現ジェネレータ」という。)を用いて回答パッセージが質問に対する正しい回答を与えるものか否かを判定したところ、驚くべきことに、従来と比較して明らかに高い精度が得られることがわかった。
〔構成〕
図8を参照して、第1の実施の形態に係る偽物表現ジェネレータ244を訓練するためのGAN220は、パッセージ190と、パッセージ190から人手によるコア回答作成192により作成されたコア回答194と、パッセージ190を得る元になった質問191とからなる三組を多数用いて偽物表現ジェネレータ244の訓練を行うためのものである。偽物表現ジェネレータ244は、パッセージ190と質問191とから偽物表現246を生成する。この実施の形態では、本物表現242及び偽物表現246は同じ要素数のベクトルである。すなわち、図7に示すものと異なり、この図8に示す偽物表現ジェネレータ244は、最終的な目的物を生成するのではなくそのベクトル表現(以下、これを「表現ベクトル」という。)を生成する。この表現ベクトルの要素数は、訓練データから得られるこれらベクトルの要素数の最大数となるように予め選択する。
GAN220は、偽物表現ジェネレータ244に加えて、コア回答194と質問191とから、偽物表現246と同形式の表現である本物表現242を生成するための本物表現ジェネレータ240と、本物表現242については本物表現であると判定し、偽物表現ジェネレータ244により生成された偽物表現246については偽物表現であると分別して分別結果250を出力するよう(分別の誤りを最小化するよう)訓練される分別器248とを含む。
後述するように、GAN220による訓練は、コンピュータハードウェアとそのコンピュータハードウェアにより実行されるコンピュータプログラム(以下「プログラム」という。)とにより実現される。図9は、GAN220による訓練を実現するプログラムの制御構造を示すフローチャートである。
図9を参照して、このプログラムは、コンピュータを質問、コア回答、及び回答候補のパッセージのための各記憶部と通信可能に接続するステップ300、偽物表現ジェネレータ244、本物表現ジェネレータ240、及び分別器248の学習を、本物表現ジェネレータ240及び分別器248と、偽物表現ジェネレータ244との間の敵対的学習により行うステップ304、ステップ304の結果、訓練の終了条件が充足されたか否かを判定し、判定結果に応じて制御の流れを分岐させるステップ306、及びステップ306において終了条件が成立していると判定されたことに応答して、そのときの偽物表現ジェネレータ244のパラメータを所定の記憶装置に保存するステップ308を含む。ステップ306の判定が否定のときには制御はステップ304に戻る。したがって、終了条件が充足されるまでステップ304が繰返される。
図10を参照して、図9のステップ304における敵対的学習を実現するプログラムは、質問と、その質問に対応するパッセージとの組合せからなる複数のサンプルを訓練データからサンプリングするステップ350、偽物表現ジェネレータ244のパラメータを固定するステップ351、ステップ350でサンプリングされたサンプルのコア回答及び質問を用いて、本物表現ジェネレータ240により本物表現242を生成し、分別器248がこれらを偽物と誤って分別する確率を最小化するように分別器248の訓練を行うステップ352、ステップ352に続き、分別器248及び本物表現ジェネレータ240のパラメータを固定するステップ354、及び、パッセージ190及び質問191から偽物表現ジェネレータ244により偽物表現246を生成し、これら偽物表現246を分別器248が誤って本物表現と判定する確率を最大化するよう偽物表現ジェネレータ244のパラメータの学習を行うステップ356を含む。
図11を参照して、上のようにして訓練された偽物表現ジェネレータ244を用い、質問442に対して回答候補のパッセージ440が適切な回答を与えるものか否かを判定するための回答特定の分類器420は、図9及び図10に示す手順により敵対的学習によって事前学習した偽物表現ジェネレータ244と、同様に事前に訓練データを用いて訓練されたパッセージエンコーダ448及び質問エンコーダ454とを含む。ただし、パッセージエンコーダ448及び質問エンコーダ454は、なぜ型質問応答システムの訓練データを用いて、敵対的学習ではない通常の教師あり学習によって訓練される。
分類器420はさらに、コア回答の表現446と、パッセージの表現452と、質問の表現458とを入力として受け、パッセージ440が質問442に対する正しい回答を与えるパッセージか否かを示す分類結果462を出力するためのロジスティック回帰層460を含む。
図8に示す偽物表現ジェネレータ244及び本物表現ジェネレータ240はいずれもエンコーダと呼ばれる同様の構造を持つ。図12を参照して、例えば偽物表現ジェネレータ244は、パッセージ190を受け、パッセージ190を構成する各単語を単語埋込みベクトル(以下「単語ベクトル」という。)に変換し、単語ベクトル列506を出力する単語埋込み層504と、質問191を受け、質問191を構成する各単語を単語ベクトルに変換して単語ベクトル列502を出力する単語埋込み層500とを含む。
偽物表現ジェネレータ244はさらに、単語ベクトル列506の各ベクトルに対して、単語ベクトル列502をアテンションとして加算しアテンションにより修飾された単語ベクトル列510を出力するアテンション加算部508と、単語ベクトル列510を受ける入力を持ち、パッセージ190の表現である偽物表現246(図11におけるコア回答表現ベクトル444)を出力するよう、予め訓練されたCNN512とを含む。
図8に示す本物表現ジェネレータ240も、CNN512を含めて偽物表現ジェネレータ244と同様の構成を持つ。エンコードの対象となるものがパッセージ190ではなくコア回答194であるという点で本物表現ジェネレータ240は偽物表現ジェネレータ244と異なっている。なお、図11に示すパッセージエンコーダ448及び質問エンコーダ454もそれぞれ上記したエンコーダと同様の構成を持っている。
〔動作〕
最初に図8に示す偽物表現ジェネレータ244の学習について説明する。偽物表現ジェネレータ244は、図8に示す本物表現ジェネレータ240及び分別器248と併せて敵対的学習により訓練される。この訓練に先立ち、既存の質問応答システムにより、種々の質問191に対してその回答として適切なパッセージ190が収集され、質問191と対応付けて記憶装置に記憶される。それらパッセージ190から、人手によるコア回答作成192により、質問191の回答として適切でかつ短いコア回答194が生成され、記憶装置に記憶される。
図9を参照して、この学習では、パッセージ190、質問191及びコア回答194を記憶した記憶部にコンピュータを接続する。具体的には、コンピュータが、パッセージ190、質問191及びコア回答194を記憶した記憶装置内のこれらを含むファイルをオープンし、それらの内容を読出してメモリに格納する。又はこれらを記憶したデータベースからパッセージ190、質問191、及びコア回答194を読出し、メモリに格納する(ステップ300)。
続いて、本物表現ジェネレータ240及び分別器248と、偽物表現ジェネレータ244との間で敵対的学習を行う(ステップ304)。
図10を参照して、この敵対的学習では、質問191と、その質問に対するパッセージとの複数の組を学習データからサンプリングする(ステップ350)。続いて偽物表現ジェネレータ244のパラメータを固定する(ステップ351)。サンプリングした質問191と、その質問191に対するコア回答194を用いて本物表現ジェネレータ240が本物表現242を生成し分別器248に与える。分別器248はこの本物表現242が本物か否かを判定する。サンプリングされた学習データの全体に対するこの判定結果を用い、偽物表現ジェネレータ244のパラメータを固定した状態で、誤判定が0となるように分別器248及び本物表現ジェネレータ240のパラメータの訓練を行う。
続いて、分別器248及び本物表現ジェネレータ240のパラメータを固定する(ステップ354)。分別器248のパラメータを固定したまま、質問191とそれに対するパッセージ190とを用い、偽物表現ジェネレータ244の学習を行う(ステップ356)具体的には、偽物表現ジェネレータ244が偽物表現246を生成する。分別器248はこの偽物表現246が本物表現か否かを判定する。この判定を複数の質問191に対して行い、偽物表現ジェネレータ244のパラメータを分別器248による誤判定が最大化するように、すなわち分別器248が偽物表現246を本物表現と判定する確率が大きくなるように、分別器248及び本物表現ジェネレータ240のパラメータを固定して偽物表現ジェネレータ244のパラメータを調整する。
こうした処理を繰返すことにより、本物表現ジェネレータ240及び分別器248と偽物表現ジェネレータ244とによる本物表現・偽物表現はゲーム理論におけるナッシュ均衡に達し、分別器248による判定結果は、正解が50%、誤判定が50%という状態に達する。図9を参照してステップ306では分別器248の判定の精度がこのナッシュ均衡の状態、又はナッシュ均衡に近い一定の状態に達したか否かを判定する。判定結果が否定であれば制御はステップ304に戻り、偽物表現ジェネレータ244の敵対的学習を続行する。ステップ306の判定結果が肯定であればステップ308で偽物表現ジェネレータ244のパラメータを記憶装置に保存し、処理を終了する。
図11を参照して、分類器420の偽物表現ジェネレータ244は、上記した敵対的学習により訓練されたものである。したがって、偽物表現ジェネレータ244が生成したコア回答表現は、図8に示す分別器248が本物表現か偽物表現かについて正しく分類できないようなものとなっている。
一方、パッセージエンコーダ448及び質問エンコーダ454は、偽物表現ジェネレータ244と同様、図12に示すような構成を持つ。ただしパッセージエンコーダ448及び質問エンコーダ454は、偽物表現ジェネレータ244と異なり、敵対的学習での事前学習は受けていない。
図11を参照して、質問442とパッセージ440として、質問とそれに対する正しい回答を含むパッセージという組合せと、質問とそれに対する正しい回答を含まないパッセージという組合せの学習データを予め準備する。これらの組合せについては、パッセージが質問に対する正しい回答を含むか否かにしたがって、正しい回答又は誤答であることを示すラベルが付されている。
分類器420において、パッセージ440と質問442とを偽物表現ジェネレータ244に与える。偽物表現ジェネレータ244は、パッセージ440に対して質問442によるアテンションが加えられたコア回答表現ベクトル444を出力する。コア回答表現ベクトル444はコア回答の表現446としてロジスティック回帰層460に与えられる。
パッセージエンコーダ448に、パッセージ440と、そのパッセージ440に対して偽物表現ジェネレータ244により得られたコア回答表現ベクトル444及び質問442を与える。パッセージエンコーダ448はパッセージ440に対してコア回答表現ベクトル444及び質問442によるアテンションを加えてパッセージ表現ベクトル450を出力する。パッセージ表現ベクトル450はパッセージの表現452としてロジスティック回帰層460に与えられる。
一方、質問エンコーダ454には、質問442とパッセージ440とが与えられる。質問エンコーダ454は、質問442にパッセージ440によるアテンションを加えて質問表現ベクトル456を出力する。質問表現ベクトル456は質問の表現458としてロジスティック回帰層460に与えられる。
ロジスティック回帰層460は、コア回答の表現446、パッセージの表現452及び質問の表現458を入力として受け、ロジスティック回帰層のパラメータと、ソフトマックス関数とにより、パッセージ440が質問442として正しい回答を含むか否かを表す確率からなる分類結果462を出力する。
分類器420の中で、偽物表現ジェネレータ244を除く全体のパラメータは、このようにして得られた分類結果462と、予め準備されたパッセージ440のラベルとの誤差に基づいて誤差逆伝搬法により誤差が小さくなるように調整される。こうした処理を訓練データの全体を使用して行うことにより分類器420の訓練が終了する。
分類器420によるパッセージ440の判定動作時には、分類器420の各部は訓練時と同様に動作する。ただし、判定動作のときには、分類器420から最終的に得られた分類結果462にしたがって、パッセージ440が質問442に対する正しい回答を含むか否かが判定される。
〔実験結果〕
上記した分類器420により、日本語の質問に対して与えられたパッセージが正しい回答を示すものか否かを分別する実験(回答特定実験)を行った。質問はなぜ型質問である。敵対的学習用の学習データとしては、DIRECT(後掲の参考文献A1)の回答要約データセット(参考文献A2)の中で、学習データセットのみを取り出して利用した。この学習データセットは、15,130件の三つ組(質問、パッセージ、コア回答)を含んでいた。
回答特定用のデータとしては、上記したDIRECTのデータセットに、敵対的学習用の学習データの15,130件の三つ組から自動作成した10,401件の質問・パッセージ対を追加した。この追加したデータを以下「AddTr」と呼ぶ。このように追加のデータを用いるのは、以下に述べるBaselineの手法等について、上記実施の形態のGANと同量の学習データで学習した場合との性能比較を行うためである。
図13に結果を示す。図13において、「OH17」で示される1行目の結果550は後掲の参考文献A3に記載されたシステムで得られた結果である。なお、図13の「P@1」は、ランキングのトップの回答の適合率を示す。「MAP」はmean average precisionを意味する。
図13の2行目及び3行目を含む結果552において、「BASE」はコア回答の表現を使わず回答特定を行った場合の結果である。「+AddTr」は上記したAddTrを追加学習データとして利用したときの回答特定の結果である。
図13の4行目、5行目、及び6行目を含む結果554において、「+CAns」は、上記参考文献A2による手法で自動生成したコア回答からコア回答表現を生成した場合の結果を示す。「+CEnc」は、参考文献A2による手法のパッセージエンコーダの出力を偽物表現ジェネレータ244(図11参照)の出力に代えて使用したものである。「+Enc」は、敵対的学習ではなく、回答特定の分類器学習で同時に偽物表現ジェネレータ244を訓練し、その表現を利用したものである。この場合、偽物表現ジェネレータ244の事前学習はしていない。
図13の7行目、8行目及び9行目を含む結果556において、「BERT」は、質問とパッセージとの解析に、CNNではなく後掲の参考文献A4に記載されたBERTモデルを利用したものである。このとき、BASEと同様にコア回答の表現は使用していない。「+AddTr」はBASEの場合と同様、AddTrを追加学習データとして利用した場合の結果である。「+AGR」は、上記実施の形態で示した偽物表現ジェネレータ244(図11)をBERTに追加してコア回答表現を利用した場合の結果である。
最後の行にある結果558が、上記実施の形態による結果である。
図14を参照して、結果552と結果554からなる結果600は、いずれもBaselineを基本とした手法による回答特定の精度を示す。上記実施の形態による結果558は、これらのいずれよりも高い精度を示した。また、結果602と結果604とを比較すると、上記実施の形態に係るコア回答表現を利用した場合、回答特定の性能が向上していることが分かる。
図15を参照して、結果554と結果558とを比較すると、コア回答の表現としてCAns、CEnc、Encを使用したものと比較して、上記実施の形態に示したコア回答表現が性能向上に大きく貢献していることが分かる。
[第2の実施の形態]
〔構成〕
上記第1の実施の形態では、図8に示すように、本物表現242及び偽物表現246は、いずれも同じパッセージ190から得られたものを使用している。図16を参照して、この第2の実施の形態に係るGAN650は、図8に示すものと同様の本物表現ジェネレータ240と、質問191及びランダムに選択した要素からなるランダムベクトル660を入力として受け、図8の偽物表現ジェネレータ244と同様の処理で偽物表現664を出力するための偽物表現ジェネレータ662と、本物表現242又は偽物表現664を入力として受けて、入力されたものが本物表現か偽物表現かを分別して分別結果668を出力するよう訓練された分別器666とを含む。ランダムベクトル660の要素数は、最大の大きさのパッセージに合わせて予め定めておくものとする。
GAN650の訓練は、図8のパッセージ190ではなくランダムベクトル660を使用することを除き、第1の実施の形態に係るGAN220と同じである。
偽物表現ジェネレータ662及び分別器666は、それぞれ図8に示す偽物表現ジェネレータ244及び分別器248と同じ構成である。しかしこれらは、図8に示すパッセージ190と異なるデータ(ランダムベクトル660)を訓練データとして訓練されるため、それらのパラメータが図8に示すものと異なり、したがって異なる振る舞いを示すことになる。
〔動作〕
GAN650の訓練及び回答特定時の動作は、第1の実施の形態に係るGAN220と同じである。ただし、訓練及び回答特定時に、偽物表現ジェネレータ662に与えられるのがパッセージではなくランダムベクトル660である点のみが第1の実施の形態と異なる。
この第2の実施の形態に係るGAN650によれば、第1の実施の形態には及ばないものの、従来技術と比較して明らかに優れた効果が得られた。その効果については、第3の形態に係るものの効果と併せて後述する。
[第3の実施の形態]
〔構成〕
図17に、第3の実施の形態に係るGAN700の構成を示す。図17を参照して、GAN700は、コア回答194を受けて本物表現242を出力する本物表現ジェネレータ240と、回答を含む可能性があるとして集められたパッセージの中からランダムに選択されたランダムパッセージ710と、質問191とを入力として受け、ランダムパッセージ710の偽物表現714を出力する、図8に示す偽物表現ジェネレータ244と同じ構成の偽物表現ジェネレータ712と、本物表現242又は偽物表現714を受け、本物表現242と偽物表現714とを分別して分別結果718を出力するよう予め訓練された分別器716を含む。質問191はランダムパッセージ710とは無関係である。
GAN700の訓練は、図8のパッセージ190ではなくランダムパッセージ710を使用することを除き、第1の実施の形態に係るGAN220と同じである。
〔動作〕
GAN700の訓練及び回答特定時の動作は、第1の実施の形態に係るGAN220と同じである。ただし、訓練及び回答特定時に、偽物表現ジェネレータ712に与えられるのがパッセージではなくランダムパッセージ710である点のみが第1の実施の形態と異なる。
この第3の実施の形態に係るGAN700でも、第1の実施の形態には及ばないものの、従来技術と比較して明らかに優れた効果が得られた。
〔第2及び第3の実施の形態に関する実験結果〕
図18に、第2及び第3の実施の形態に関する実験結果を表形式で示す。図18において「BASE」は図15の2行目の「BASE」と同じものである。「提案法(RV)」は第2の実施の形態に係るものの結果を示す。「RV」は「Random Vector」を表す。「提案法(RP)」は第3の実施の形態に係るものの結果を示す。「RP」は「Random Passage」を表す。「提案法」は第1の実施の形態によるものの結果を示し、図15の最終行の結果558と同じものである。
図18と図15とを比較すると、提案法(RV)及び提案法(RP)のいずれも、第1の実施の形態による結果には及ばないが、図18に示すBASEと比較して明確に高い精度を示し、さらに図15に示す他のどの手法と比較しても同等以上の結果を得ることができたことが分かる。
[第4の実施の形態]
〔構成〕
英語に関する質問応答システムに、後掲の参考文献A5に記載されたDistantly supervised open-domain QA (DS-QA)と呼ばれるタスクがある。図19を参照して、このタスク750は、質問760を受け、複数のパッセージ764を検索762し、そのパッセージ764から回答774を抽出する、というタスクである。主な質問タイプはなに型質問である。したがって回答は単語又は名詞句からなることが多く、なぜ型質問に対する回答より短い傾向がある。より具体的には、このタスク750では、パッセージから回答を含む確率が高いパラグラフの集合768を選択するパラグラフ選択器766と、パラグラフ選択器766が選択したパラグラフの集合768と質問760とが与えられたとき、質問760に対する回答となる確率が最も高い単語列からなる回答候補の集合772を算出するパラグラフリーダ770とを含む。この回答候補の集合772から回答774が抽出される。
図20を参照して、参考文献A5に記載されたタスク750を実行する例示的な質問応答システム800は、テキストアーカイブ810と、質問812を受けて、テキストアーカイブ810から回答候補を含むパラグラフの集合816を検索し取出すパラグラフ検索部814を含む。パラグラフの集合816をPで表すと、P={p,…,p}、ただしp,…,pはいずれもパラグラフを表す(N=正の整数)。質問応答システム800はさらに、パラグラフの集合816に含まれるパラグラフp,…,pの各々から、正しい回答である可能性が高い部分(回答候補)を選択し、回答候補の集合820を生成するためのパラグラフ選択部818を含む。回答候補の集合820をSで表すと、S={s,…,s}、ただしs,…,sはそれぞれパラグラフp,…,pから選択された回答候補である。
この質問応答システム800はさらに、回答候補の集合820から質問812に対する正しい回答である確率が最も高い回答候補を抽出し回答824として出力する回答抽出部822を含む。
上記実施の形態に係る偽物表現ジェネレータがなぜ型質問だけでなくなに型質問にも有効か否かに関する汎化性能を調べるため、このDS-QAタスクに偽物表現ジェネレータを適用したものが第4の実施の形態である。その概念図を図21に示す。
図21を参照して、偽物表現ジェネレータを用いて上記タスク750と同様の処理を行うためのタスク850は、質問760を受けてパッセージ764を検索762し、併せて、パッセージ764から偽物表現862を生成するための、上記実施の形態のいずれかに係る偽物表現ジェネレータ860を含む。
このタスク850は、図19のタスク750のパラグラフ選択器766及びパラグラフリーダ770に代えて、いずれも偽物表現862を用いてパラグラフ選択器766及びパラグラフリーダ770と同様の機能を実現するパラグラフ選択器864及びパラグラフリーダ868を含む。ここでは、パラグラフ選択器864により選択されたパラグラフがパラグラフの集合866を形成し、パラグラフリーダ868により選択された回答候補が回答候補の集合870を形成するものとする。
このタスク850を実行する、この実施の形態に係る質問応答システム900の概略構成を図22に示す。図22を参照して、質問応答システム900は、テキストアーカイブ810と、質問812を受けて、テキストアーカイブ810から回答候補を含むパラグラフの集合816を検索し取出すパラグラフ検索部814を含む。パラグラフの集合816はP={p,…,p}である。ただしp,…,pはいずれもパラグラフを表す(N=正の整数)。
質問応答システム900はさらに、パラグラフの集合816に含まれる各パラグラフと、質問812とを入力として受け、コア回答表現の集合912を生成するコア回答表現ジェネレータ910を含む。これらコア回答表現はパラグラフp,…,pの各々に対して1つずつ得られる。これらコア回答表現をそれぞれc,…,cで表す。すなわち、コア回答表現の集合912はC={c,…,c}である。コア回答表現ジェネレータ910としては、上記した実施の形態又は同様の手法によって訓練されたものであればいずれでもよい。
質問応答システム900はさらに、パラグラフの集合816内の各パラグラフp,…,pと、それらパラグラフから得られたコア回答表現c,…,cとをペアリングし(パラグラフ1個とそれから得られたコア回答表現1個とを組合せ)、パラグラフとコア回答表現対の集合916を生成するためのペアリング部914を含む。パラグラフとコア回答表現対の集合916はPpc={(p,c),…,(p,c)}と表せる。
質問応答システム900はさらに、パラグラフとコア回答表現対の集合916から各パラグラフについて、そのパラグラフの中で質問812に対する回答となる確率が最も高い部分を回答候補として選択し各パラグラフの回答候補の集合920を生成するためのパラグラフ選択部918を含む。各パラグラフの回答候補の集合920を再びSで表せばS={s,…,s}である。
質問応答システム900はさらに、各パラグラフの回答候補の集合920の各要素s,…,sと、コア回答表現の集合912の、各要素s,…,sに対応するコア回答表現c,…,cとをペアリングし、各パラグラフの回答候補とコア回答表現対の集合924を生成するためのペアリング部922を含む。各パラグラフの回答候補とコア回答表現対の集合924をSpc={(s,c),…,(s,c)}と表す。
質問応答システム900はさらに、回答候補とコア回答表現対の集合924から質問812に対する回答である確率が最も高い回答候補を含むペアを選択し、そのペアに含まれる回答候補を質問812に対する回答928として出力するための回答抽出部926を含む。
この実施の形態では、コア回答表現ジェネレータ910として上記したとおり、第1から第3の実施の形態の手法で訓練されたものであればどのようなものを用いてもよい。またパラグラフ検索部814としては、従来におけるパラグラフ検索と同様、テキスト中の手掛かり語を用いるものを利用すればよい。パラグラフ選択部918及び回答抽出部926としては機械学習により各候補のスコアを算出するように予め訓練した統計的モデルを用いれば良い。
パラグラフ選択部918の訓練には、質問、パラグラフ、及びその質問とそのパラグラフとから生成したコア回答表現とからなる質問・パラグラフ・コア回答表現の三つ組を入力とし、そのパラグラフがその質問に対する回答を含むか否かを示すラベルを教師データとする訓練データを用いる。
回答抽出部926の訓練も同様で、質問、回答候補、及び質問とその回答候補とから生成したコア回答表現とからなる質問・回答候補・コア回答表現の三つ組を入力とし、その回答候補がその質問に対する正しい回答か否かを示すラベルを教師データとする訓練データを用いる。
なお、参考文献A5に開示された質問応答システムでは、最終的に回答候補が正しい回答である確率は、以下の式により算出する。質問qに対する回答aを所与のパラグラフの集合P={p}から求める場合、図20のパラグラフ選択部818及び回答抽出部822はそれぞれ、条件付き確率Pr(p|q、P)と条件付き確率Pr(a|q,p)をそれぞれ算出する。そして、最終的な出力Pr(a|q,P)がこれらの確率を組合せることで算出される。
この実施の形態では、上の枠組みに、以下の式にしたがって、パラグラフpから生成されたコア回答表現cを組合せる。
Figure 0007290861000001
参考文献A5では、パラグラフ選択部818及び回答抽出部822では、パラグラフをエンコードする際に双方向多層RNN(Bidirectional Stacked RNN)を用いている。入力としてはパラグラフの単語ベクトル列pを用いる。それに対してこの実施の形態ではさらに、コア回答表現cを用いて、アテンションで重み付けした単語ベクトル ̄pをパラグラフから算出する。パラグラフpのj番目の単語の単語ベクトルp に対して、後掲の参考文献A6に記載されたアテンション重み付けと、参考文献A7に記載されたバイリニア関数とを用いてアテンションにより修飾された単語ベクトル ̄p を計算した。この計算は、行列M∈Rd×d、d=300として以下の式で表される。
Figure 0007290861000002
ここで行列Mの各要素が学習の対象となる。softmaxjはsoftmax関数を適用した後のベクトルxのj番目の要素を表す。この単語ベクトルp 及び ̄p を連結したものを、パラグラフpのj番目の単語ベクトルとして双方向多層RNNへの入力とした。
〔動作〕
質問応答システム900は以下のように動作する。質問応答システム900には、大きく分けて訓練フェーズとテストフェーズとがある。テキストアーカイブ810には大量のテキストが予め集積されている。
訓練フェーズでは、コア回答表現ジェネレータ910、パラグラフ選択部918、及び回答抽出部926を、それぞれ予め準備した訓練データを用いて訓練しておく。コア回答表現ジェネレータ910の訓練には、上記した敵対的学習を用いる。
テストフェーズでは、質問812が与えられると、パラグラフ検索部814がテキストアーカイブ810から手掛かり語等を用いて質問812に対する回答を含む可能性があるパラグラフを抽出しパラグラフの集合816を生成する。一方、コア回答表現ジェネレータ910はパラグラフの集合816内の各パラグラフと、質問812とを組合せてそれぞれコア回答表現の集合912を生成する。ペアリング部914がパラグラフとそのコア回答表現とをペアリングし、パラグラフとコア回答表現対の集合916を生成する。
パラグラフ選択部918は、パラグラフとコア回答表現対の集合916の中で質問812に対する回答を含む確率の高いパラグラフ(回答候補)を選択し回答候補の集合920を生成する。ペアリング部922が、回答候補の集合920内の各回答候補と、その回答候補に対応するコア回答表現とをペアリングし回答候補とコア回答表現対の集合924を生成する。
回答抽出部926が、回答候補とコア回答表現対の集合924内の回答候補の中から質問812に対する回答である確率が最も高い回答候補を抽出し、回答928として出力する。
〔効果〕
上記実施の形態に係る質問応答システムの性能を調べるために、他の4つの手法との比較を行った。4つの手法についてこの実験で用いたデータセットの統計を以下の表1に示す。ただしこれらのデータセットの中で、「*」が付されたデータは今回の実験では用いなかった。
Figure 0007290861000003
これらの中で、最初の3行のデータセットは、後掲の参考文献A8で紹介されたものであり、DS-QA法の訓練及び評価に用いられた。4行目のデータセットは後掲の参考文献A9に記載されたものであり、コア回答表現ジェネレータ910の訓練に用いた。このデータセット(SQuAD v1.1)は、質問、回答、及びその回答を含むパラグラフからなる三つ組からなっている。実験では、これらを全て用いてコア回答表現ジェネレータ910を訓練した。
実験では、比較のために公知の3つのデータセット (Quasar-T (参考文献A10)、SearchQA (参考文献A11)、及びTriviaQA (参考文献A12))を用い、公知の2つの手法であるR(参考文献A13)、OpenQA(参考文献A8)、及び上記実施の形態による提案法(PAIR)を比較した。実験の結果を次の表2に示す。
Figure 0007290861000004
評価には全てEMスコア及びF1スコアを用いた。EMは真の回答(ground truth)のいずれかと正確に一致した予測結果の率を示す。F1は予測結果と真の回答との間の平均的な重なりを大まかに示す。この表において、TriviaQAの結果は、その開発データに対するものである。§及び†はそれぞれ提案法(PAIR)とOpenQAとの結果の性能差について、それぞれp<0.05及びp<0.01という条件でのMcNemar検定による統計的有意性を示す。
この結果から、上記実施の形態に係るコア回答表現ジェネレータ910を用いた場合、OpenQAとTriviaQAの組合せにおけるF1を除き、この出願による提案法が他の手法をいずれも上回る性能を示すことが分かる。結果の一部は、その性能差が統計的に有意な差であることを示している。
以上から、この発明に係るコア回答表現は、なぜ型質問応答システムだけではなく、他の質問応答システム、例えばなに型質問応答システムにも有効に利用できることが分かる。
[コンピュータによる実現]
図23は、上記各実施の形態を実現するコンピュータシステムの外観図である。図24は、図23に示すコンピュータシステムのハードウェアブロック図である。
図23を参照して、このコンピュータシステム950は、DVD(Digital Versatile Disc)ドライブ1002を有するコンピュータ970と、いずれもコンピュータ970に接続された、ユーザと対話するためのキーボード974、マウス976、及びモニタ972とを含む。もちろんこれはユーザ対話のための構成の一例であって、ユーザ対話に利用できる一般のハードウェア及びソフトウェア(例えばタッチパネル、音声入力、ポインティングデバイス一般)であればどのようなものも利用できる。
図24を参照して、コンピュータ970は、DVDドライブ1002に加えて、CPU990と、GPU(Graphics Processing Unit)992と、CPU990、GPU992、DVDドライブ1002に接続されたバス1010と、バス1010に接続され、コンピュータ970のブートアッププログラム等を記憶するROM996と、バス1010に接続され、プログラムを構成する命令、システムプログラム、及び作業データ等を記憶するRAM998と、バス1010に接続された不揮発性メモリであるハードディスクドライブ(HDD)1000とを含む。ハードディスク1000は、CPU990及びGPU992が実行するプログラム、CPU990及びGPU992が実行するプログラムが使用するデータ等を記憶するためのものである。コンピュータ970はさらに、他端末との通信を可能とするネットワーク986への接続を提供するネットワークI/F1008と、USBメモリ984が着脱可能で、USBメモリ984とコンピュータ970内の各部との通信を提供するUSBポート1006とを含む。
コンピュータ970はさらに、マイク982及びスピーカ980とバス1010とに接続され、CPU990により生成されRAM998又はHDD1000に保存された音声信号をCPU990の指示にしたがって読出し、アナログ変換及び増幅処理をしてスピーカ980を駆動したり、マイク982からのアナログの音声信号をデジタル化し、RAM998又はHDD1000の、CPU990により指定される任意のアドレスに保存したりするための音声I/F1004を含む。
上記実施の形態では、図6~図8、図11、図12、図16、図17、図22に示す偽物ジェネレータ144、196、244、662及び712、分別器148、200、248、666及び716、テキストアーカイブ810、コア回答表現ジェネレータ910、パラグラフ選択部918、並びに回答抽出部926等のデータ及びパラメータ等は、いずれも例えば図24に示すHDD1000、RAM998、DVD978、又はUSBメモリ984、若しくはネットワークI/F1008及びネットワーク986を介して接続された図示しない外部装置の記憶媒体等に格納される。典型的には、これらのデータ及びパラメータ等は、例えば外部からHDD1000に書込まれコンピュータ970の実行時にはRAM998にロードされる。
このコンピュータシステムを図8に示すGAN220、そのための敵対的学習による訓練装置、及びその各構成要素の機能を実現するよう動作させるためのコンピュータプログラムは、DVDドライブ1002に装着されるDVD978に記憶され、DVDドライブ1002からHDD1000に転送される。又は、このプログラムはUSBメモリ984に記憶され、USBメモリ984をUSBポート1006に装着し、プログラムをハードディスク1000に転送する。又は、このプログラムはネットワーク986を通じてコンピュータ970に送信されHDD1000に記憶されてもよい。プログラムは実行のときにRAM998にロードされる。もちろん、キーボード974、モニタ972及びマウス976を用いてソースプログラムを入力し、コンパイルした後のオブジェクトプログラムをHDD1000に格納してもよい。スクリプト言語の場合には、キーボード974等を用いて入力したスクリプトをHDD1000に格納してもよい。仮想マシン上で動作するプログラムの場合には、仮想マシンとして機能するプログラムを予めコンピュータ970にインストールしておく必要がある。
CPU990は、その内部のプログラムカウンタと呼ばれるレジスタ(図示せず)により示されるアドレスにしたがってRAM998からプログラムを読出して命令を解釈し、命令の実行に必要なデータを命令により指定されるアドレスにしたがってRAM998、ハードディスク1000又はそれ以外の機器から読出して命令により指定される処理を実行する。CPU990は、実行結果のデータを、RAM998、ハードディスク1000、CPU990内のレジスタ等、プログラムにより指定されるアドレスに格納する。このとき、プログラムカウンタの値もプログラムによって更新される。コンピュータプログラムは、DVD978から、USBメモリ984から、又はネットワークを介して、RAM998に直接にロードしてもよい。なお、CPU990が実行するプログラムの中で、一部のタスク(主として数値計算)については、プログラムに含まれる命令により、又はCPU990による命令実行時の解析結果にしたがって、GPU992にディスパッチされる。
コンピュータ970により上記した各実施の形態に係る各部の機能を実現するプログラムは、それら機能を実現するようコンピュータ970を動作させるように記述され配列された複数の命令を含む。この命令を実行するのに必要な基本的機能のいくつかはコンピュータ970上で動作するオペレーティングシステム(OS)若しくはサードパーティのプログラム、又はコンピュータ970にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令の中で、所望の結果が得られるように制御されたやり方で適切な機能又は「プログラミング・ツール・キット」の機能を呼出すことにより、上記した各装置及びその構成要素としての動作を実行する命令のみを含んでいればよい。そのためのコンピュータ970の動作方法は周知であるので、ここでは繰返さない。なお、GPU992は並列処理を行うことが可能であり、機械学習に伴う多量の計算を同時並列的又はパイプライン的に実行できる。例えばプログラムのコンパイル時にプログラム中で発見された並列的計算要素、又はプログラムの実行時に発見された並列的計算要素は、随時、CPU990からGPU992にディスパッチされ、実行され、その結果が直接に、又はRAM998の所定アドレスを介してCPU990に返され、プログラム中の所定の変数に代入される。
〔参考文献A1〕
Jong-Hoon Oh, Kentaro Torisawa, Chikara Hashimoto, Takuya Kawada, Stijn De Saeger, Jun’ichi Kazama, and Yiou Wang. 2012. Why question answering using sentiment analysis and word classes. In Proceedings of EMNLP-CoNLL, pages 368-378.
〔参考文献A2〕
Ryu Iida, Canasai Kruengkrai, Ryo Ishida, Kentaro Torisawa, Jong-Hoon Oh, and Julien Kloetzer. 2019. Exploiting background knowledge in compact answer generation for why-questions. In Proceedings of Thirty-Third AAAI Conference on Artificial Intelligence 2019 (AAAI-19).
〔参考文献A3〕
Jong-Hoon Oh, Kentaro Torisawa, Canasai Kruengkrai, Ryu Iida, and Julien Kloetzer. 2017. Multi-column convolutional neural networks with causality-attention for why-question answering. In Proceedings of WSDM.
〔参考文献A4〕
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. BERT: pre-training of deep bidirectional transformers for language understanding. CoRR, abs/1810.04805.
〔参考文献A5〕
Danqi Chen, Adam Fisch, Jason Weston, and Antoine Bordes. 2017. Reading Wikipedia to answer opendomain questions. In Association for Computational Linguistics (ACL).
〔参考文献A6〕
Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2015. Neural machine translation by jointly learning to align and translate. In Proceedings of ICLR.
〔参考文献A7〕
Ilya Sutskever, Joshua B. Tenenbaum, and Ruslan R Salakhutdinov. 2009. Modelling relational data using bayesian clustered tensor factorization. In Proceedings of NIPS.
〔参考文献A8〕
Yankai Lin, Haozhe Ji, Zhiyuan Liu, and Maosong Sun. 864 2018. Denoising distantly supervised open-domain question answering. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, ACL 2018, pages 1736-1745.
〔参考文献A9〕
Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. 2016. Squad: 100,000+ questions for machine comprehension of text. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 2383-2392.
〔参考文献A10〕
Bhuwan Dhingra, Kathryn Mazaitis, and William W Cohen. 2017. Quasar: Datasets for question answering by search and reading. arXiv preprint arXiv:1707.03904.
〔参考文献A11〕
Matthew Dunn, Levent Sagun, Mike Higgins, V. Ugur Gueney, Volkan Cirik, and Kyunghyun Cho. 2017. Searchqa: A new q&a dataset augmented with context from a search engine. CoRR, abs/1704.05179.
〔参考文献A12〕
Mandar Joshi, Eunsol Choi, Daniel Weld, and Luke Zettlemoyer. 2017. Triviaqa: A large scale distantly supervised challenge dataset for reading comprehension. In Proceedings of the 55th Annual Meeting 851 of the Association for Computational Linguistics, 852 pages 1601-1611.
〔参考文献A13〕
Shuohang Wang, Mo Yu, Xiaoxiao Guo, Zhiguo Wang, Tim Klinger, Wei Zhang, Shiyu Chang, Gerry Tesauro, Bowen Zhou, and Jing Jiang. 2018. R3: Reinforced ranker-reader for open-domain question answering. In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), pages 5981-5988.
今回開示された実施の形態は単に例示であって、この発明が上記した実施の形態のみに制限されるわけではない。この発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
30 なぜ型質問応答システム
32、66、90、191、442、760、812 質問
34 回答候補検索システム
800、900 質問応答システム
36、774、824、872、928 回答
50 質問受付部
52 応答受信部
54 回答パッセージ記憶部
56 ウェブアーカイブ記憶部
58 因果関係表現抽出部
60 特徴量抽出部
62、512 CNN
64 回答候補ランキング部
92、100 回答パッセージ
94 表現
110、194 コア回答
130、180、220、650、700 GAN
140 本物のデータ
142 ノイズ
144、196 偽物ジェネレータ
146 偽物のデータ
148、200、248、666、716 分別器
150、202、250、668、718 分別結果
190、440、764 パッセージ
192 コア回答作成
198 偽物コア回答
240 本物表現ジェネレータ
242 本物表現
244、612、662、712、860 偽物表現ジェネレータ
246、664、714、862 偽物表現
300、304、306、308、350、351、352、354、356 ステップ
420 分類器
444 コア回答表現ベクトル
446 コア回答の表現
448 パッセージエンコーダ
450 パッセージ表現ベクトル
452 パッセージの表現
454 質問エンコーダ
456 質問表現ベクトル
458 質問の表現
460 ロジスティック回帰層
462 分類結果
500、504 単語埋込み層
502、506、510 単語ベクトル列
508 アテンション加算部
550、552、554、558、600、602、604 結果
660 ランダムベクトル
710 ランダムパッセージ
750、850 タスク
762 検索
766、864 パラグラフ選択器
768、816、866 パラグラフの集合
770、868 パラグラフリーダ
772、820、870、920 回答候補の集合
810 テキストアーカイブ
814 パラグラフ検索部
818、918 パラグラフ選択部
822、926 回答抽出部
910 コア回答表現ジェネレータ
912 コア回答表現の集合
914、922 ペアリング部
916 パラグラフとコア回答表現対の集合
924 回答候補とコア回答表現対の集合

Claims (6)

  1. コンピュータによる自然言語処理において、コンピュータを、
    自然言語からなる質問とその質問と組になる入力とが与えられると、当該入力を表現する第1の表現ベクトルを出力する第1の表現ジェネレータと、
    前記質問と当該質問に対する回答とが与えられると、前記第1の表現ベクトルと同一形式で、前記回答を表現する第2の表現ベクトルを出力する第2の表現ジェネレータと、
    前記第1の表現ベクトル又は前記第2の表現ベクトルの入力を受け、当該入力された表現ベクトルが前記第1の表現ベクトルか前記第2の表現ベクトルかを判定するための分別器と、
    前記第1の表現ベクトルに対する誤判定ができるだけ大きくなるように、かつ、前記第2の表現ベクトルに対する誤判定ができるだけ小さくなるように、前記分別器及び前記第1の表現ジェネレータを敵対的学習により訓練する敵対的学習部として動作させる、コンピュータプログラム。
  2. 前記第1の表現ジェネレータは、前記質問と、当該質問に対する回答を含む可能性がある1又は複数の文を含むパッセージとが与えられると、当該パッセージから、前記質問に対する前記回答を表現する前記第1の表現ベクトルを出力するベクトル出力手段を含む、請求項1に記載のコンピュータプログラム。
  3. 前記第1の表現ジェネレータは、前記質問と、ランダムに選択された1又は複数の文を含むパッセージとが与えられると、当該パッセージ及び前記質問から、前記質問に対する前記回答を表現する前記第1の表現ベクトルを出力するベクトル出力手段を含む、請求項1に記載のコンピュータプログラム。
  4. 前記第1の表現ジェネレータは、前記質問と、ランダムな要素からなるランダムベクトルとが与えられると、当該ランダムベクトル及び前記質問から、前記質問に対する前記回答を表現する前記第1の表現ベクトルを出力するベクトル出力手段を含む、請求項1に記載のコンピュータプログラム。
  5. 請求項1から請求項4のいずれか1項に記載されたコンピュータプログラムにより訓練された、表現ジェネレータ。
  6. 質問と、当該質問に対する回答を含む可能性があるパッセージとの入力を受け、当該パッセージから得られる、前記質問に対する回答の表現である第1の表現ベクトルを出力する、請求項5に記載された表現ジェネレータと、
    前記パッセージと、前記第1の表現ベクトルと、前記質問とを受け、前記パッセージをエンコードする、前記第1の表現ベクトルと前記質問とによるアテンションが加えられたベクトル表現を出力するパッセージエンコーダと、
    前記質問と、前記パッセージとを受け、前記パッセージによるアテンションが加えられた、前記質問の表現ベクトルを出力する質問エンコーダと、
    前記第1の表現ベクトル、前記パッセージの表現ベクトル、及び前記質問の表現ベクトルを受け、前記パッセージ前記質問に対する正しい回答と誤った回答とに分類するように予め訓練された判定部とを含む、回答分類器。
JP2019133710A 2019-07-19 2019-07-19 質問応答システムのための回答分類器及び表現ジェネレータ、並びに表現ジェネレータを訓練するためのコンピュータプログラム Active JP7290861B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019133710A JP7290861B2 (ja) 2019-07-19 2019-07-19 質問応答システムのための回答分類器及び表現ジェネレータ、並びに表現ジェネレータを訓練するためのコンピュータプログラム
US17/622,798 US20220253599A1 (en) 2019-07-19 2020-07-06 Answer classifier and representation generator for question-answering system, and computer program for training the representation generator
PCT/JP2020/026360 WO2021014951A1 (ja) 2019-07-19 2020-07-06 質問応答システムのための回答分類器及び表現ジェネレータ、並びに表現ジェネレータを訓練するためのコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019133710A JP7290861B2 (ja) 2019-07-19 2019-07-19 質問応答システムのための回答分類器及び表現ジェネレータ、並びに表現ジェネレータを訓練するためのコンピュータプログラム

Publications (3)

Publication Number Publication Date
JP2021018588A JP2021018588A (ja) 2021-02-15
JP2021018588A5 JP2021018588A5 (ja) 2022-06-24
JP7290861B2 true JP7290861B2 (ja) 2023-06-14

Family

ID=74192863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019133710A Active JP7290861B2 (ja) 2019-07-19 2019-07-19 質問応答システムのための回答分類器及び表現ジェネレータ、並びに表現ジェネレータを訓練するためのコンピュータプログラム

Country Status (3)

Country Link
US (1) US20220253599A1 (ja)
JP (1) JP7290861B2 (ja)
WO (1) WO2021014951A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3926551A1 (de) * 2020-06-15 2021-12-22 Deutsche Telekom AG Verfahren zur unterstützung des verbesserten betriebs eines über ein telekommunikationsnetz einem telekommunikationsendgerät bereitgestellten frage-und-antwort-dienst, system, telekommunikationsnetz frage-und-antwort-dienst, computerprogramm und computerlesbares medium
JP2022067234A (ja) * 2020-10-20 2022-05-06 国立研究開発法人情報通信研究機構 回答特定用テキスト分類器及び背景知識表現ジェネレータ及びその訓練装置、並びにコンピュータプログラム
JP2022121312A (ja) 2021-02-08 2022-08-19 大同特殊鋼株式会社 溶融金属形成用線材及び溶接製品
CN113139039B (zh) * 2021-05-06 2024-07-16 京东科技控股股份有限公司 对话数据处理方法、装置、设备以及存储介质
US11900534B2 (en) * 2021-07-30 2024-02-13 The Boeing Company Systems and methods for synthetic image generation
US11651554B2 (en) * 2021-07-30 2023-05-16 The Boeing Company Systems and methods for synthetic image generation
US20230055991A1 (en) * 2021-08-09 2023-02-23 Samsung Electronics Co., Ltd. System and method for interactive dialogue
JP7520783B2 (ja) 2021-08-18 2024-07-23 株式会社東芝 識別装置、方法、プログラムおよび学習装置
CN116701609B (zh) * 2023-07-27 2023-09-29 四川邕合科技有限公司 基于深度学习的智能客服问答方法、系统、终端及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019012908A1 (ja) 2017-07-13 2019-01-17 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答装置
JP2019046019A (ja) 2017-08-31 2019-03-22 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10983971B2 (en) * 2018-11-28 2021-04-20 Intuit Inc. Detecting duplicated questions using reverse gradient adversarial domain adaptation
US11514330B2 (en) * 2019-01-14 2022-11-29 Cambia Health Solutions, Inc. Systems and methods for continual updating of response generation by an artificial intelligence chatbot
CN114970513A (zh) * 2022-04-22 2022-08-30 武汉轻工大学 图像生成方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019012908A1 (ja) 2017-07-13 2019-01-17 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答装置
JP2019046019A (ja) 2017-08-31 2019-03-22 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Also Published As

Publication number Publication date
US20220253599A1 (en) 2022-08-11
WO2021014951A1 (ja) 2021-01-28
JP2021018588A (ja) 2021-02-15

Similar Documents

Publication Publication Date Title
JP7290861B2 (ja) 質問応答システムのための回答分類器及び表現ジェネレータ、並びに表現ジェネレータを訓練するためのコンピュータプログラム
WO2021082953A1 (zh) 机器阅读理解方法、设备、存储介质及装置
Lei et al. Re-examining the Role of Schema Linking in Text-to-SQL
CN111401077B (zh) 语言模型的处理方法、装置和计算机设备
US10970493B1 (en) Systems and methods for slot relation extraction for machine learning task-oriented dialogue systems
JP2023509031A (ja) マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム
CN113312500A (zh) 一种面向大坝安全运行的事件图谱构建方法
RU2712101C2 (ru) Предсказание вероятности появления строки с использованием последовательности векторов
KR20220045879A (ko) 이미지 번역 서비스를 제공하기 위한 방법 및 서버
Peng et al. A fine-grained modal label-based multi-stage network for multimodal sentiment analysis
WO2022085533A1 (ja) 回答特定用テキスト分類器及び背景知識表現ジェネレータ及びその訓練装置、並びにコンピュータプログラム
CN115130591A (zh) 一种基于交叉监督的多模态数据分类方法及装置
Jim et al. Recent advancements and challenges of nlp-based sentiment analysis: A state-of-the-art review
CN117377950A (zh) 使用机器学习加速文档归类
Wang et al. MT-TCCT: Multi-task learning for multimodal emotion recognition
US11501071B2 (en) Word and image relationships in combined vector space
Panahandeh Nigjeh et al. Leveraging ParsBERT for cross-domain polarity sentiment classification of Persian social media comments
CN114722818A (zh) 一种基于对抗迁移学习的命名实体识别模型
Zhang et al. Human-like explanation for text classification with limited attention supervision
Singh et al. What is your cause for concern? towards interpretable complaint cause analysis
Kulkarni et al. Deep Reinforcement-Based Conversational AI Agent in Healthcare System
Luo Self-Training for Natural Language Processing
Kumar et al. Transformer-based Models for Language Identification: A Comparative Study
Biswas et al. Automatic judgement of neural network-generated image captions
CN116562305B (zh) 方面情感四元组预测方法与系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220616

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230526

R150 Certificate of patent or registration of utility model

Ref document number: 7290861

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150