JP2017041207A - 構造解析装置、方法、及びプログラム - Google Patents
構造解析装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2017041207A JP2017041207A JP2015164219A JP2015164219A JP2017041207A JP 2017041207 A JP2017041207 A JP 2017041207A JP 2015164219 A JP2015164219 A JP 2015164219A JP 2015164219 A JP2015164219 A JP 2015164219A JP 2017041207 A JP2017041207 A JP 2017041207A
- Authority
- JP
- Japan
- Prior art keywords
- action
- stack
- actions
- discourse
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】解析速度の低下を抑えながら構造解析を精度良く行う。
【解決手段】探索部22により、シフトアクション、及びレデュースアクションを含む複数のアクションを用いて形成されるアクションの列のうち、初期状態から、最終状態までの各状態遷移に対応するアクションからなるアクションの列であって、かつ、各状態遷移について、遷移前の状態におけるスタックの各要素及びバッファの各談話の基本単位とアクションとの組み合わせと、アクションを決定するための予め求められたモデルとに基づいて算出されるスコアの合計が最大となるアクションの列をビーム探索により探索し、探索されたアクションの列に従って、入力文の構造解析結果を表す解析木を作成する。
【選択図】図6
【解決手段】探索部22により、シフトアクション、及びレデュースアクションを含む複数のアクションを用いて形成されるアクションの列のうち、初期状態から、最終状態までの各状態遷移に対応するアクションからなるアクションの列であって、かつ、各状態遷移について、遷移前の状態におけるスタックの各要素及びバッファの各談話の基本単位とアクションとの組み合わせと、アクションを決定するための予め求められたモデルとに基づいて算出されるスコアの合計が最大となるアクションの列をビーム探索により探索し、探索されたアクションの列に従って、入力文の構造解析結果を表す解析木を作成する。
【選択図】図6
Description
本発明は、入力された自然言語で記述された文書の談話構造を表した修辞構造木、又は談話依存構造木を出力するための構造解析装置、方法、及びプログラムに関するものである。
従来、修辞構造解析方法として、シフト還元法が知られている。シフト還元法とは、状態とアクションという概念を用いることで解析を進める方法であり、初期状態から各ステップにおいて1つアクションを選択して次の状態へと遷移し、最終状態に至ると解析が完了する。
ここで、状態はステップ数、バッファ、及びスタックを持つ。バッファには、入力となる文書の文や節等の談話の基本単位であるEDU(Elementary Discourse Units)が先頭から(語順で)格納される。一方、スタックには、解析の途中結果が保持される。
また、アクションは、シフトとレデュースとの2種類がある。シフトは、バッファの先頭からEDUを1つ取り出し、それに核(N)か衛星(S)かのラベルと修辞関係のラベルとを割り当て、スタックの先頭に積む。一方、レデュースは、スタックの先頭とその次に積まれている解析途中の修辞構造木とを、核(N)か衛星(S)かのラベルと修辞関係のラベルとが付与された新しいノードをルートにして結合する。なお、修辞関係のラベルが無い場合、特殊なSpanというラベルを用いるが、特に意味を持たないので説明を省略する。
図10にシフト還元法の動作例を示す。初期状態(ステップ数0)では、シフトNアクションをとり、バッファ先頭のEDUにNラベルを割り当てて、スタックの先頭に積む。また、ステップ数2の状態では、レデュースN:Topic−Changeアクションをとり、スタック先頭とその次の修辞構造木とを結合して、新たな修辞構造木を作る。同様の操作を入力長|x|に対して、2|x|−1ステップまで進めることで解析が終了する(シフトを|x|回、レデュースを|x|−1回行う)。
Daniel Marcu. A decision-based approach to rhetorical parsing. In Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics, pages 365−372. Association for Computational Linguistics, 1999.
しかし、上述した従来の方法では、解析精度が非常に低いことが知られている。この原因は、シフト還元法では各ステップで1つの状態だけを管理し、貪欲的に探索が進められるため、解析途中で探索エラーを起こしやすく、正しい修辞構造木を導く状態が削除されてしまう可能性があるためである。
本発明では、上記問題点を解決するために成されたものであり、解析速度の低下を抑えながら構造解析を精度良く行うことができる構造解析装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る構造解析装置は、自然言語の文書の語順に並んだ入力文に含まれる各談話の基本単位を格納したバッファと、少なくとも1つの前記談話の基本単位の構造解析結果を表す部分解析木を格納するための少なくとも1つの要素からなるスタックと、前記バッファに格納された先頭の談話の基本単位を取り出し、前記取り出した談話の基本単位の構造解析結果を表す部分解析木を格納した要素を、前記スタックの先頭要素として追加するシフトアクション、及び前記スタックの先頭要素及び2番目の要素を取り出し、かつ、取り出した先頭要素及び2番目の要素の各々に格納された前記部分解析木を結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースアクションを含む複数のアクションを用いて形成されるアクションの列のうち、初期状態から、前記入力文の構造解析結果を表す解析木が前記スタックの先頭要素に格納された最終状態までの各状態遷移に対応する前記アクションからなるアクションの列であって、かつ、各状態遷移について、遷移前の状態における前記スタックの各要素及び前記バッファの各談話の基本単位と前記アクションとの組み合わせと、前記アクションを決定するための予め求められたモデルとに基づいて算出されるスコアの合計が最大となるアクションの列をビーム探索により探索し、前記探索されたアクションの列に従って、前記入力文の構造解析結果を表す解析木を作成するする探索部と、を含んで構成されている。
第2の発明に係る構造解析方法は、自然言語の文書の語順に並んだ入力文に含まれる各談話の基本単位を格納したバッファと、少なくとも1つの前記談話の基本単位の構造解析結果を表す部分解析木を格納するための少なくとも1つの要素からなるスタックと、探索部とを含む構造解析装置における、構造解析方法であって、前記探索部は、前記バッファに格納された先頭の談話の基本単位を取り出し、前記取り出した談話の基本単位の構造解析結果を表す部分解析木を格納した要素を、前記スタックの先頭要素として追加するシフトアクション、及び前記スタックの先頭要素及び2番目の要素を取り出し、かつ、取り出した先頭要素及び2番目の要素の各々に格納された前記部分解析木を結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースアクションを含む複数のアクションを用いて形成されるアクションの列のうち、初期状態から、前記入力文の構造解析結果を表す解析木が前記スタックの先頭要素に格納された最終状態までの各状態遷移に対応する前記アクションからなるアクションの列であって、かつ、各状態遷移について、遷移前の状態における前記スタックの各要素及び前記バッファの各談話の基本単位と前記アクションとの組み合わせと、前記アクションを決定するための予め求められたモデルとに基づいて算出されるスコアの合計が最大となるアクションの列をビーム探索により探索し、前記探索されたアクションの列に従って、前記入力文の構造解析結果を表す解析木を作成する。
第1及び第2の発明によれば、探索部により、バッファに格納された先頭の談話の基本単位を取り出し、取り出した談話の基本単位の構造解析結果を表す部分解析木を格納した要素を、スタックの先頭要素として追加するシフトアクション、及びスタックの先頭要素及び2番目の要素を取り出し、かつ、取り出した先頭要素及び2番目の要素の各々に格納された部分解析木を結合して作成される部分解析木を格納した要素を、スタックの先頭要素として追加するレデュースアクションを含む複数のアクションを用いて形成されるアクションの列のうち、初期状態から、入力文の構造解析結果を表す解析木がスタックの先頭要素に格納された最終状態までの各状態遷移に対応するアクションからなるアクションの列であって、かつ、各状態遷移について、遷移前の状態におけるスタックの各要素及びバッファの各談話の基本単位とアクションとの組み合わせと、アクションを決定するための予め求められたモデルとに基づいて算出されるスコアの合計が最大となるアクションの列をビーム探索により探索し、探索されたアクションの列に従って、入力文の構造解析結果を表す解析木を作成する。
このように、シフトアクション、及びレデュースアクションを含む複数のアクションを用いて形成されるアクションの列のうち、初期状態から、最終状態までの各状態遷移に対応するアクションからなるアクションの列であって、かつ、各状態遷移について、遷移前の状態におけるスタックの各要素及びバッファの各談話の基本単位とアクションとの組み合わせと、アクションを決定するための予め求められたモデルとに基づいて算出されるスコアの合計が最大となるアクションの列をビーム探索により探索し、探索されたアクションの列に従って、入力文の構造解析結果を表す解析木を作成することにより解析速度の低下を抑えながら構造解析を精度良く行うことができる。
また、第1及び第2の発明において、前記探索部は、前記初期状態において算出される前記アクション毎のスコアが上位k個となるアクションを選択し、前記選択された上位k個のアクションによって遷移する状態の各々について、更に前記状態において算出される前記アクション毎のスコアが上位k個となるアクションを選択することを前記最終状態まで繰り返し、前記繰り返し結果により得られるアクションの列の各々のうち、前記アクションの列のスコアの総和が最大となるアクションの列を探索してもよい。
また、第1及び第2の発明において、前記レデュースアクションには、前記スタックの先頭要素及び2番目の要素を取り出し、かつ、取り出した先頭要素及び2番目の要素の各々に格納された前記部分解析木を、前記先頭要素が主辞になるように結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースLアクション、及び前記スタックの先頭要素及び2番目の要素を取り出し、かつ、取り出した先頭要素及び2番目の要素の各々に格納された前記部分解析木を、前記2番目の要素が主辞になるように結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースRアクションの2つのアクションが含まれ、前記構造解析結果は、談話依存構造解析の結果としてもよい。
また、第1の発明において、前記構造解析結果は、修辞構造解析の結果としてもよい。
また、本発明のプログラムは、コンピュータを、上記の構造解析装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の構造解析装置、方法、及びプログラムによれば、シフトアクション、及びレデュースアクションを含む複数のアクションを用いて形成されるアクションの列のうち、初期状態から、最終状態までの各状態遷移に対応するアクションからなるアクションの列であって、かつ、各状態遷移について、遷移前の状態におけるスタックの各要素及びバッファの各談話の基本単位とアクションとの組み合わせと、アクションを決定するための予め求められたモデルとに基づいて算出されるスコアの合計が最大となるアクションの列をビーム探索により探索し、探索されたアクションの列に従って、入力文の構造解析結果を表す解析木を作成することにより解析速度の低下を抑えながら構造解析を精度良く行うことができる。
以下、図面を参照して本発明の実施形態を詳細に説明する。
<本実施形態の原理>
まず、本発明の実施形態の原理について説明する。本実施形態において、例えば、図1に示す英語文書に対して、談話構造を表した修辞構造木は図2のようになる。修辞構造木において、その葉ノードはEDUに対応する。隣接するEDU同士は修辞関係(例えば、Temporal、Elaborationなどのラベルで表される)によって結合され、より大きな談話単位が形成される。さらに、その談話単位同士も修辞関係によって結合され、木構造を形作る。ある談話単位は、その修辞関係上において他の談話単位よりも重要な情報を持つ場合、核(N)、そうでない場合、衛星(S)と呼ばれる状態で特徴付けられる。ここで、入力される文書は、図1において、「[]」の添字にテキスト内のEDUのID、「{}」の添字に文のIDが付加されているものとする。
まず、本発明の実施形態の原理について説明する。本実施形態において、例えば、図1に示す英語文書に対して、談話構造を表した修辞構造木は図2のようになる。修辞構造木において、その葉ノードはEDUに対応する。隣接するEDU同士は修辞関係(例えば、Temporal、Elaborationなどのラベルで表される)によって結合され、より大きな談話単位が形成される。さらに、その談話単位同士も修辞関係によって結合され、木構造を形作る。ある談話単位は、その修辞関係上において他の談話単位よりも重要な情報を持つ場合、核(N)、そうでない場合、衛星(S)と呼ばれる状態で特徴付けられる。ここで、入力される文書は、図1において、「[]」の添字にテキスト内のEDUのID、「{}」の添字に文のIDが付加されているものとする。
また、図1に示す英語文書に対する談話依存構造木を図3に示す。談話依存構造木は、修辞構造木と異なり、EDU同士の親子関係を直接記述した木構造となる。矢印(辺)の元にある方を主辞、先にある方を修飾子と呼ぶ。このような修辞構造木あるいは談話依存構造木を高速かつ高精度に自動解析して作ることができれば、文書要約などの高度な自然言語処理技術の高精度化につながる。
そこで、本実施形態においては、文の依存構造解析を行う場合等に用いられるビーム探索型シフト還元法(非特許文献2:Yue Zhang and Stephen Clark. A tale of two parsers: investigating and combining graph-based and transition-based dependency parsing using beam-search. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, pages 562−571. Asso-ciation for Computational Linguistics, 2008.)を修辞構造解析に導入する。
上述した従来技術においては、各ステップにおいて、1つの状態だけを管理していたが、本実施形態において用いるビーム探索型シフト還元法は、図4に示すように、各ステップにおいて、複数の状態を管理する。このとき、複数のバッファを格納する領域をビームと呼び、その要領をビーム幅と呼ぶ。なお、ビーム幅は予め定義されているものとする。
また、本実施形態において、ビーム探索型シフト還元法を修辞構造解析に用いることにより、各ステップでビーム幅個までの状態を管理し、並行して解析を進めることができる。そのため、正しい修辞構造木を導く状態が探索エラーにより削除される可能性を軽減できる。なお、本実施形態において、ビーム探索型シフト還元法を修辞構造解析に用いる場合には、アクションの種別は、従来技術と同様、シフトとレデュースとなる。
また、本実施形態において、ビーム探索型シフト還元法を、談話依存構造解析に用いる場合には、従来のシフト還元法とは、アクションの定義が異なり、シフト、レデュースL、及びレデュースRの3種類を用いる。当該3種類のアクションについて、以下に説明する。
シフトは、バッファの先頭からEDUを1つ取り出し、取り出した要素に各(N)か衛星(S)かのラベルを割り当て、スタックの先頭に先頭要素として積む(追加)。
レデュースLは、スタックの先頭とその次(2番目)に積まれている解析途中の談話依存構造木のルートEDUに対して、スタック先頭に積まれている方のEDUを主辞(head)にして、新しい依存構造木を作る。また、依存構造木を作る際に、修辞関係を表すラベルを辺に付与する。
レデュースRは、スタックの先頭とその次に積まれている解析途中の談話依存構造木のルートEDUに対して、スタック先頭の次に積まれている方のEDUを主辞(head)にして、新しい依存構造木を作る。また、依存構造木を作る際に、修辞関係を表すラベルを辺に付与する。
図5に、談話依存構造解析において、上述したアクションを選択した場合の動作イメージの一例を示す。なお、図5の例においては、1つの状態において、1つのアクションを選択する場合の動作イメージの例について説明するが、本実施形態においては、図4に示すビーム探索型シフト還元法を用いるため、1つの状態からビーム幅分のアクションが選択されるものとする。初期状態(ステップ数0)では、シフトNアクションをとり、バッファ先頭のEDUにNラベルを割り当てて、スタックの先頭に積む。また、ステップ数2の状態では、レデュースR:Elab.アクションをとり、スタック先頭とその次の談話依存構造木を結合して、新たな談話依存構造木を作る。このような操作を入力長|x|に対して、2|x|−1ステップまで進めることで解析が終了する(シフトを|x|回、レデュースを|x|−1回行う)。上述した従来技術のシフト還元法との違いは、アクションの定義だけであるため、同様に、ビーム探索型シフト還元法として利用できる。
なお、本実施形態において用いる、ビーム探索型シフト還元法においては、各状態において、取りえるアクションのそれぞれについて統計モデルに基づいて優先度スコアを計算し、当該計算スコアに基づいて、予め定められたビーム幅kに対応するk個のアクションを選択する。ここで、優先度スコアは、予め学習された重みベクトルと、特定の状態において特定のアクションを選択する場合の素性ベクトルとの内積により計算することができる。なお、初期状態のビームは、1つの状態のみを有する。また、談話依存構造解析を行う場合には、重みベクトルは、ある入力文書と、当該入力文書に対応する談話依存構造木との複数の組み合わせに基づいて学習することができる。一方、修辞構造解析を行う場合には、重みベクトルは、ある入力文書と、当該入力文書に対応する修辞構造木との複数の組み合わせに基づいて学習することができる。また、本実施形態においては、重みベクトルは、任意の学習方法において予め学習されているものとする。また、素性ベクトルは、素性ベクトルの特徴を作り出すための雛形である、予め任意に定義されている素性テンプレートに基づいて、各状態において求めることができる。具体的には、各状態と、選択されるアクションと、素性テンプレートとに基づいて、素性ベクトルを取得することができる。
例えば、初期状態(ステップ0)において、取りえるアクションの各々について、初期状態において当該アクションをとる場合について取得される素性ベクトルと、予め学習された重みベクトルとの内積を計算し優先度スコアを算出する。次に、算出された優先度スコアの上位k個のアクションを選択し、選択したk個のアクションの各々を取った状態の各々を、ステップ1の状態とする。そのため、ステップ1の状態においては、ビーム幅k個の状態が含まれる。更に、ステップ1に含まれるk個の状態の各々について、当該状態において、同様の方法により、取りえるアクションをk個選択し、選択したk個のアクションの各々を取った状態の各々を、ステップ2の状態とする。なお、ステップ2においては、ステップ1に含まれるk個の状態の各々について、更にk個の状態に遷移した状態の各々を含むため、k2個の状態を含むことになる。同様の操作を最終状態(例えば、バッファが空になり、かつスタックに1つの解析木のみが存在する状態)になるまで繰り返す。また、当該各最終状態におけるアクション列(当該最終状態に遷移するまでに選択されたアクションの各々)の各々について、当該アクション列に含まれるアクションの各々を選択する際に算出された優先度スコアの総和を最終スコアとして算出する。そして、最終スコアが一番高いアクション列に対応する最終状態のスタックに格納されている解析木を解析結果とする。また、最終状態に至っていない状態におけるスタックに格納されている解析木は部分解析木となる。
<本発明の第1の実施形態に係る構造解析装置の構成>
次に、本発明の第1の実施形態に係る構造解析装置の構成について説明する。図6に示すように、第1の実施形態に係る構造解析装置100は、CPUと、RAMと、後述する構造解析処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この構造解析装置100は、機能的には図6に示すように入力部10と、演算部20と、出力部90とを含んで構成されている。なお、第1の実施形態においては、上述したビーム探索型シフト還元法を修辞構造解析に用いる場合に説明する。
次に、本発明の第1の実施形態に係る構造解析装置の構成について説明する。図6に示すように、第1の実施形態に係る構造解析装置100は、CPUと、RAMと、後述する構造解析処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この構造解析装置100は、機能的には図6に示すように入力部10と、演算部20と、出力部90とを含んで構成されている。なお、第1の実施形態においては、上述したビーム探索型シフト還元法を修辞構造解析に用いる場合に説明する。
入力部10は、例えば、図1に示すような各テキスト内のEDUのID,及び各文に文のIDが付与された自然言語で記述された文書を受け付ける。
演算部20は、探索部22と、重みベクトル記憶部24と、素性テンプレート記憶部26とを含んで構成されている。
探索部22は、入力部10において受け付けた文書と、重みベクトル記憶部24に記憶されている重みベクトルと、素性テンプレート記憶部26に記憶されている素性テンプレートとに基づいて、上述した本実施形態において用いるビーム探索型シフト還元法に従って、修辞構造木を作り、出力部90から出力する。
具体的には、まず、ステップ数0の初期状態として、スタックを空に設定し、バッファに入力部10において受け付けたEDU単位毎の要素を並び順に格納する。次に、初期状態において取りえるアクション(例えばシフトN、シフトS:Elaboration、及びレデュースN:Topic−Change等)の各々について、初期状態において当該アクションをとる場合の素性ベクトルを素性テンプレートと当該初期状態と当該アクションとに基づいて取得すると共に、取得した素性ベクトルと、重みベクトル記憶部24に記憶されている重みベクトルとに基づいて、優先度スコアを算出する。
次に、スコアの高い方から、予め定義されたビーム幅k個のアクションを選択し、選択したk個のアクションの各々により状態が遷移したk個の状態の各々をステップ1の状態とする。次に、ステップ1に含まれるk個の状態の各々について、同様の処理を行い、ステップ2に遷移する。更に、ステップ2から、バッファが空になり、かつスタックに1つの解析木のみが存在する状態である最終状態になるまで同様の処理を繰り返す。
次に、最終状態の各々について得られたアクション列について、当該アクション列に含まれるアクションを選択する際に算出した、アクションの各々の優先度スコアの総和を当該最終状態のスコアとして算出する。そして、最終状態のスコアが一番高いアクション列に対応する最終状態のスタックに格納されている解析木を、入力部10において受け付けた文書の修辞構造木として出力部90に出力する。
重みベクトル記憶部24には、修辞構造解析を行うために予め学習された重みベクトルが記憶されている。
素性テンプレート記憶部26には、修辞構造解析を行うために任意に定義されている素性テンプレートが記憶されている。
<本発明の第1の実施形態に係る構造解析装置の作用>
次に、本発明の第1の実施形態に係る構造解析装置100の作用について説明する。構造解析装置100は、入力部10によって、図1に示すような各テキスト内のEDUのID,及び各文に文のIDが付与された自然言語で記述された文書を受け付けると、構造解析装置100によって、図7に示す構造解析処理ルーチンが実行される。
次に、本発明の第1の実施形態に係る構造解析装置100の作用について説明する。構造解析装置100は、入力部10によって、図1に示すような各テキスト内のEDUのID,及び各文に文のIDが付与された自然言語で記述された文書を受け付けると、構造解析装置100によって、図7に示す構造解析処理ルーチンが実行される。
まず、図7に示す構造解析処理ルーチンのステップS100で、受け付けた文書について、重みベクトル記憶部24に記憶されている重みベクトルと、素性テンプレート記憶部26に記憶されている素性テンプレートとに基づいて、上述した本実施形態において用いるビーム探索型シフト還元法に従って、各最終状態に至るまでのアクション列を探索する。
次に、ステップS102で、ステップS100において取得したアクション列の各々について、当該アクション列に含まれるアクションの各々を選択する際に計算した優先度スコアの総和を最終スコアとして算出する。
次に、ステップS104で、ステップS102において取得した最終スコアが一番高いアクション列に対応する最終状態の、スタックに格納された解析木を、入力部10において受け付けた文書の修辞構造木として出力部90から出力し、構造解析処理ルーチンを終了する。
以上説明したように、本発明の第1の実施形態に係る構造解析装置によれば、シフトアクション、及びレデュースアクションを含む複数のアクションを用いて形成されるアクションの列のうち、初期状態から、最終状態までの各状態遷移に対応するアクションからなるアクションの列であって、かつ、各状態遷移について、遷移前の状態におけるスタックの各要素及びバッファの各談話の基本単位とアクションとの組み合わせと、アクションを決定するための予め求められたモデルとに基づいて算出されるスコアの合計が最大となるアクションの列をビーム探索により探索し、探索されたアクションの列に従って、入力文の構造解析結果を表す解析木を作成することにより解析速度の低下を抑えながら修辞構造解析を精度良く行うことができる。
また、上述の従来方法にビーム探索を導入したことで、解析速度の低下をビーム幅倍程度に抑えながら、修辞構造解析の精度を飛躍的に向上させることができる。これにより、文書要約などの高度な視線言語処理技術の高精度化につなげることができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
次に、第2の実施形態に係る構造解析装置について説明する。第2の実施形態においては、上述したビーム探索型シフト還元法を用いて、談話依存構造解析を行う点が第1の実施形態と異なる。なお、第1の実施形態に係る構造解析装置と同様の構成及び作用については、同一の符号を付して、説明を省略する。
<本発明の第2の実施形態に構造解析装置の構成>
次に、本発明の第2の実施形態に係る構造解析装置の構成について説明する。図8に示すように、本発明の本実施形態に係る構造解析装置200は、CPUと、RAMと、後述する構造解析処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この構造解析装置200は、機能的には図8に示すように入力部10と、演算部220と、出力部90とを含んで構成されている。
次に、本発明の第2の実施形態に係る構造解析装置の構成について説明する。図8に示すように、本発明の本実施形態に係る構造解析装置200は、CPUと、RAMと、後述する構造解析処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この構造解析装置200は、機能的には図8に示すように入力部10と、演算部220と、出力部90とを含んで構成されている。
演算部220は、探索部222と、重みベクトル記憶部224と、素性テンプレート記憶部226とを含んで構成されている。
探索部222は、入力部10において受け付けた文書と、重みベクトル記憶部224に記憶されている重みベクトルと、素性テンプレート記憶部226に記憶されている素性テンプレートとに基づいて、上述した本実施形態において用いる、アクションの定義をシフト、レデュースL、及びレデュースRの3種類として、ビーム探索型シフト還元法に従って、談話依存構造木を作り、出力部90から出力する。なお、具体的な内容は、上述した第1の実施形態に係る構造解析装置100の探索部22と同様であるため、説明は省略する。
重みベクトル記憶部224には、談話依存構造解析を行うために予め学習された重みベクトルが記憶されている。
素性テンプレート記憶部26には、談話依存構造解析を行うために任意に定義されている素性テンプレートが記憶されている。
<本発明の第2の実施形態に係る構造解析装置の作用>
次に、第2の実施形態に係る構造解析装置200の作用について説明する。構造解析装置200は、入力部10によって、図1に示すような各テキスト内のEDUのID,及び各文に文のIDが付与された自然言語で記述された文書を受け付けると、構造解析装置200によって、図9に示す構造解析処理ルーチンが実行される。なお、第1の実施形態に係る構造解析装置100と同様の作用については、同一の符号を付して説明を省略する。
次に、第2の実施形態に係る構造解析装置200の作用について説明する。構造解析装置200は、入力部10によって、図1に示すような各テキスト内のEDUのID,及び各文に文のIDが付与された自然言語で記述された文書を受け付けると、構造解析装置200によって、図9に示す構造解析処理ルーチンが実行される。なお、第1の実施形態に係る構造解析装置100と同様の作用については、同一の符号を付して説明を省略する。
まず、図9に示す構造解析処理ルーチンのステップS200で、受け付けた文書について、重みベクトル記憶部224に記憶されている重みベクトルと、素性テンプレート記憶部226に記憶されている素性テンプレートとに基づいて、上述した本実施形態において用いるビーム探索型シフト還元法に従って、各最終状態に至るまでのアクション列を探索する。
ステップS204で、ステップS102において取得した最終スコアが一番高いアクション列に対応する最終状態の、スタックに格納された解析木を、入力部10において受け付けた文書の談話依存構造解析木として出力部90から出力し、構造解析処理ルーチンを終了する。
以上説明したように、本発明の第2の実施形態に係る構造解析装置によれば、シフトアクション、レデュースLアクション、及びレデュースRアクションを含む複数のアクションを用いて形成されるアクションの列のうち、初期状態から、最終状態までの各状態遷移に対応するアクションからなるアクションの列であって、かつ、各状態遷移について、遷移前の状態におけるスタックの各要素及びバッファの各談話の基本単位とアクションとの組み合わせと、アクションを決定するための予め求められたモデルとに基づいて算出されるスコアの合計が最大となるアクションの列をビーム探索により探索し、探索されたアクションの列に従って、入力文の構造解析結果を表す解析木を作成することにより解析速度の低下を抑えながら談話依存構造解析を精度良く行うことができる。
また、与えられた文書に対して、シフト還元法により、談話依存構造木を構築することができる。
また、シフト還元法による談話依存構造解析手法を定義したことで、修辞構造木以外の談話構造の解析が可能になっている。これにより、文書要約などの高度な視線言語処理技術の高精度化につなげることができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、第1及び第2の実施形態においては、アクションとして、修辞構造解析の場合、シフトアクション、及びレデュースアクションとし、談話依存構造解析の場合、シフトアクション、レデュースLアクション、及びレデュースRアクションと定義する場合について説明したがこれに限定されるものではない。修辞構造解析の場合、シフトアクション、及びレデュースアクションが含まれていれば他のアクションも定義してもよい。また、談話依存構造解析の場合も、シフトアクション、レデュースLアクション、及びレデュースRアクションが含まれていれば他のアクションも定義してもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
10 入力部
20,220 演算部
22,222 探索部
24,224 重みベクトル記憶部
26,226 素性テンプレート記憶部
90 出力部
100,200 構造解析装置
20,220 演算部
22,222 探索部
24,224 重みベクトル記憶部
26,226 素性テンプレート記憶部
90 出力部
100,200 構造解析装置
Claims (8)
- 自然言語の文書の語順に並んだ入力文に含まれる各談話の基本単位を格納したバッファと、
少なくとも1つの前記談話の基本単位の構造解析結果を表す部分解析木を格納するための少なくとも1つの要素からなるスタックと、
前記バッファに格納された先頭の談話の基本単位を取り出し、前記取り出した談話の基本単位の構造解析結果を表す部分解析木を格納した要素を、前記スタックの先頭要素として追加するシフトアクション、及び前記スタックの先頭要素及び2番目の要素を取り出し、かつ、取り出した先頭要素及び2番目の要素の各々に格納された前記部分解析木を結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースアクションを含む複数のアクションを用いて形成されるアクションの列のうち、
初期状態から、前記入力文の構造解析結果を表す解析木が前記スタックの先頭要素に格納された最終状態までの各状態遷移に対応する前記アクションからなるアクションの列であって、かつ、各状態遷移について、遷移前の状態における前記スタックの各要素及び前記バッファの各談話の基本単位と前記アクションとの組み合わせと、前記アクションを決定するための予め求められたモデルとに基づいて算出されるスコアの合計が最大となるアクションの列をビーム探索により探索し、
前記探索されたアクションの列に従って、前記入力文の構造解析結果を表す解析木を作成する探索部と、
を含む構造解析装置。 - 前記探索部は、
前記初期状態において算出される前記アクション毎のスコアが上位k個となるアクションを選択し、
前記選択された上位k個のアクションによって遷移する状態の各々について、更に前記状態において算出される前記アクション毎のスコアが上位k個となるアクションを選択することを前記最終状態まで繰り返し、
前記繰り返し結果により得られるアクションの列の各々のうち、前記アクションの列のスコアの総和が最大となるアクションの列を探索する請求項1記載の構造解析装置。 - 前記レデュースアクションには、
前記スタックの先頭要素及び2番目の要素を取り出し、かつ、取り出した先頭要素及び2番目の要素の各々に格納された前記部分解析木を、前記先頭要素が主辞になるように結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースLアクション、及び前記スタックの先頭要素及び2番目の要素を取り出し、かつ、取り出した先頭要素及び2番目の要素の各々に格納された前記部分解析木を、前記2番目の要素が主辞になるように結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースRアクションの2つのアクションが含まれ、
前記構造解析結果は、談話依存構造解析の結果である請求項1又は2記載の構造解析装置。 - 前記構造解析結果は、修辞構造解析の結果である請求項1又は2記載の構造解析装置。
- 自然言語の文書の語順に並んだ入力文に含まれる各談話の基本単位を格納したバッファと、少なくとも1つの前記談話の基本単位の構造解析結果を表す部分解析木を格納するための少なくとも1つの要素からなるスタックと、探索部とを含む構造解析装置における、構造解析方法であって、
前記探索部は、前記バッファに格納された先頭の談話の基本単位を取り出し、前記取り出した談話の基本単位の構造解析結果を表す部分解析木を格納した要素を、前記スタックの先頭要素として追加するシフトアクション、及び前記スタックの先頭要素及び2番目の要素を取り出し、かつ、取り出した先頭要素及び2番目の要素の各々に格納された前記部分解析木を結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースアクションを含む複数のアクションを用いて形成されるアクションの列のうち、
初期状態から、前記入力文の構造解析結果を表す解析木が前記スタックの先頭要素に格納された最終状態までの各状態遷移に対応する前記アクションからなるアクションの列であって、かつ、各状態遷移について、遷移前の状態における前記スタックの各要素及び前記バッファの各談話の基本単位と前記アクションとの組み合わせと、前記アクションを決定するための予め求められたモデルとに基づいて算出されるスコアの合計が最大となるアクションの列をビーム探索により探索し、
前記探索されたアクションの列に従って、前記入力文の構造解析結果を表す解析木を作成する
構造解析方法。 - 前記探索部により探索することは、
前記初期状態において算出される前記アクション毎のスコアが上位k個となるアクションを選択し、
前記選択された上位k個のアクションによって遷移する状態の各々について、更に前記状態において算出される前記アクション毎のスコアが上位k個となるアクションを選択することを前記最終状態まで繰り返し、
前記繰り返し結果により得られるアクションの列の各々のうち、前記アクションの列のスコアの総和が最大となるアクションの列を探索する請求項5記載の構造解析方法。 - 前記レデュースアクションには、
前記スタックの先頭要素及び2番目の要素を取り出し、かつ、取り出した先頭要素及び2番目の要素の各々に格納された前記部分解析木を、前記先頭要素が主辞になるように結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースLアクション、及び前記スタックの先頭要素及び2番目の要素を取り出し、かつ、取り出した先頭要素及び2番目の要素の各々に格納された前記部分解析木を、前記2番目の要素が主辞になるように結合して作成される前記部分解析木を格納した要素を、前記スタックの先頭要素として追加するレデュースRアクションの2つのアクションが含まれ、
前記構造解析結果は、談話依存構造解析の結果である請求項5又は6記載の構造解析方法。 - コンピュータを、請求項1〜4の何れか1項記載の構造解析装置の各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015164219A JP2017041207A (ja) | 2015-08-21 | 2015-08-21 | 構造解析装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015164219A JP2017041207A (ja) | 2015-08-21 | 2015-08-21 | 構造解析装置、方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017041207A true JP2017041207A (ja) | 2017-02-23 |
Family
ID=58206641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015164219A Pending JP2017041207A (ja) | 2015-08-21 | 2015-08-21 | 構造解析装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017041207A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580439A (zh) * | 2022-02-22 | 2022-06-03 | 北京百度网讯科技有限公司 | 翻译模型训练方法、翻译方法、装置、设备以及存储介质 |
JP7457332B2 (ja) | 2021-03-05 | 2024-03-28 | 日本電信電話株式会社 | 木構造推定装置、パラメタ学習装置、木構造推定方法、パラメタ学習方法、及びプログラム |
-
2015
- 2015-08-21 JP JP2015164219A patent/JP2017041207A/ja active Pending
Non-Patent Citations (4)
Title |
---|
ZHANG YUE, CLARK STEPHEN: "A Tale of Two Parsers: investigating and combining graph-based and transition-based dependency pars", PROCEEDINGS OF THE 2008 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, JPN6018030667, 27 October 2008 (2008-10-27), US, pages 562 - 571 * |
林 克彦 外4名: "単語並べ替えと冠詞生成の同時逐次処理", 自然言語処理, vol. 第21巻第5号, JPN6018030668, 16 September 2014 (2014-09-16), JP, pages 1037 - 1057 * |
横山 憲司 外2名: "Support Vector Machineを用いた談話構造解析", 情報処理学会研究報告, vol. 第2003巻第23号, JPN6018030663, 7 March 2003 (2003-03-07), JP, pages 193 - 200 * |
進藤 裕之 外1名: "遷移型依存構造解析における擬似曖昧性の影響", 言語処理学会第20回年次大会 発表論文集 [ONLINE], JPN6018030666, 10 March 2014 (2014-03-10), JP, pages 197 - 200 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7457332B2 (ja) | 2021-03-05 | 2024-03-28 | 日本電信電話株式会社 | 木構造推定装置、パラメタ学習装置、木構造推定方法、パラメタ学習方法、及びプログラム |
CN114580439A (zh) * | 2022-02-22 | 2022-06-03 | 北京百度网讯科技有限公司 | 翻译模型训练方法、翻译方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11106714B2 (en) | Summary generating apparatus, summary generating method and computer program | |
Goldberg et al. | An efficient algorithm for easy-first non-directional dependency parsing | |
Ringger et al. | Active learning for part-of-speech tagging: Accelerating corpus annotation | |
JP2019526142A (ja) | 検索語句の誤り訂正方法および装置 | |
US9753905B2 (en) | Generating a document structure using historical versions of a document | |
US20190317986A1 (en) | Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method | |
JP5646792B2 (ja) | 単語分割装置、単語分割方法、及び単語分割プログラム | |
JP6778654B2 (ja) | 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム | |
JP2010044637A (ja) | データ処理装置、方法、及びプログラム | |
EP2950306A1 (en) | A method and system for building a language model | |
Chen et al. | Utilizing dependency language models for graph-based dependency parsing models | |
CN114818891A (zh) | 小样本多标签文本分类模型训练方法及文本分类方法 | |
KR101049358B1 (ko) | 유사어 결정 방법 및 시스템 | |
JP2006338261A (ja) | 翻訳装置、翻訳方法及び翻訳プログラム | |
JP2015169947A (ja) | モデル学習装置、形態素解析装置、及び方法 | |
JP2017041207A (ja) | 構造解析装置、方法、及びプログラム | |
WO2019228016A1 (zh) | 一种智能写作方法和装置 | |
CN102945231B (zh) | 一种面向增量式翻译的结构化语言模型构建方法及系统 | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
JP6564709B2 (ja) | 文書き換え装置、方法、及びプログラム | |
JP2015043163A (ja) | 係り受け関係解析パラメータ学習装置、係り受け関係解析装置、方法、及びプログラム | |
JP6667875B2 (ja) | 要約文作成モデル学習装置、要約文作成装置、要約文作成モデル学習方法、要約文作成方法、及びプログラム | |
Tammewar et al. | Can distributed word embeddings be an alternative to costly linguistic features: A study on parsing hindi | |
JP6668222B2 (ja) | 並べ替え装置、並べ替え方法、及び並び替えプログラム | |
KR20080028655A (ko) | 품사 태깅 장치 및 태깅 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170822 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180807 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190219 |