以下に、図面を参照して、本発明にかかる解析装置、解析方法、および解析プログラムの実施の形態を詳細に説明する。
(実施の形態にかかる解析方法の一実施例)
図1は、実施の形態にかかる解析方法の一実施例を示す説明図である。解析装置100は、対象文書の述語項構造を解析するコンピュータである。解析装置100は、例えば、サーバやPC(Personal Computer)などである。
対象文書は、述語項構造を解析する解析対象になる文書である。対象文書は、例えば、日本語で記述された文書である。対象文書は、例えば、日本語以外で記述された文書であってもよい。述語項構造は、述語と、述語にかかる項との関係を示す情報である。述語は、事象を記述する語句である。述語は、例えば、用言である。項は、事象を記述する際に用いられる要素を記述する語句であり、例えば、主語や目的語である。
ここで、質問応答システムのような、入力された文書を知識源とするシステムにおいては、文書の述語項構造を精度よく解析することが求められる傾向がある。しかしながら、文書の述語項構造を精度よく解析することは難しい。例えば、日本語で記述された文書においては主語や目的語などの項が記述省略されることがあり、述語にかかる主語や目的語などの項を精度よく特定することが難しくなる。
これに対し、文書の局所的な文脈を考慮して記述省略された主語や目的語などの項を解析し、文書の述語項構造を解析する場合が考えられる。しかしながら、この場合、文書の大域的な文脈を考慮することができず、記述省略された項に対応する記述省略されていない項が比較的離れた位置にあると、述語にかかる項を精度よく特定することが難しくなるため、述語項構造を精度よく解析することが難しい。
さらに、一貫性モデルを用いて、文書の述語項構造を解析した解析結果が、文書の大域的な文脈を考慮したものであるかを評価する場合も考えられる。しかしながら、この場合、文書の述語項構造を解析した解析結果について文書の大域的な文脈の一貫性のよさを一定以上評価されても、より精度のよい他の解析結果があるか否かが分からず、より精度のよい他の解析結果を特定することができない。
そこで、本実施の形態では、対象文書全体に対応する複数の解析結果候補のうち、文脈の一貫性を評価した結果に応じて、いずれかの解析結果候補を、精度のよい対象文書全体に対応する解析結果として選択することができる解析方法について説明する。
図1の例では、解析装置100は、対象文書101を取得する。対象文書101は、例えば、解析装置100の利用者によって、解析装置100に入力される。対象文書101は、例えば、解析装置100とは異なる装置から、ネットワークを介して、解析装置100に受信されてもよい。
(1−1)解析装置100は、取得した対象文書101のうち、所定単位の文章ごとに、述語項構造の1以上の解析結果候補を生成する。所定単位は、例えば、一文である。所定単位は、例えば、節や段落であってもよい。解析結果候補は、例えば、文章における述語と、述語にかかる文章における主語や目的語などの項になる名詞とを対応付けた情報である。これにより、解析装置100は、所定単位の文章に対応する解析結果になりうる1以上の解析結果候補を生成することができる。
(1−2)解析装置100は、所定単位の文章ごとに生成した1以上の解析結果候補のいずれかの解析結果候補を選択して組み合わせた、複数の解析結果候補集合102を生成する。解析結果候補集合102は、文章ごとの解析結果候補を一つずつ選択して組み合わせた情報である。解析結果候補集合102は、例えば、文書の文章ごとに、文章における述語と、述語にかかる文章における主語や目的語などの項になる名詞とを対応付けた情報である。これにより、解析装置100は、対象文書101全体に対応する解析結果になりうる複数の解析結果候補集合102を生成することができる。
(1−3)解析装置100は、生成した複数の解析結果候補集合102のそれぞれの解析結果候補集合102について文脈の一貫性を評価した結果に基づいて、複数の解析結果候補集合102のいずれかの解析結果候補集合102を出力する。文脈の一貫性は、例えば、論理展開に整合性があることである。文脈の一貫性は、具体的には、一貫性モデルを用いて評価される。
解析装置100は、例えば、それぞれの解析結果候補集合102について、Entity Gridモデルを用いて、文脈の一貫性を評価した評価値を算出する。Entity Gridモデルについては、例えば、下記参考文献1を参考にすることができる。解析装置100は、それぞれの解析結果候補集合102について算出した評価値に基づいて、対象文書全体に対応する解析結果103として、いずれかの解析結果候補集合102を出力する。
参考文献1:Barzilay, R. and Lapata, M., “Modeling Local Coherence: An Entity−Based Approach”,Computational Linguistics, Vol.34, No.1, 2008.
これにより、解析装置100は、対象文書101全体に対応する解析結果になりうる複数の解析結果候補集合のうち、文脈の一貫性のよさに基づいて、文書の大域的な文脈のよさを考慮して、精度のよい解析結果候補集合を出力しやすくすることができる。このように、解析装置100は、対象文書101全体に対応する述語項構造の解析結果として、精度のよい解析結果候補集合を出力することができ、述語項構造の解析精度の向上を図ることができる。
そして、解析装置100は、例えば、対象文書101全体に対応する述語項構造の精度のよい解析結果を、質問応答システムのように文書を知識源とするシステムに利用させることができる。また、解析装置100は、例えば、対象文書101全体に対応する述語項構造の精度のよい解析結果を、文書校正システムや自動応答システムなどに利用させてもよい。
(解析装置100のハードウェア構成例)
次に、図2を用いて、解析装置100のハードウェア構成例について説明する。
図2は、解析装置100のハードウェア構成例を示すブロック図である。図2において、解析装置100は、CPU(Central Processing Unit)201と、メモリ202と、ネットワークI/F(Interface)203と、記録媒体I/F204と、記録媒体205とを有する。また、各構成部は、バス200によってそれぞれ接続される。
ここで、CPU201は、解析装置100の全体の制御を司る。メモリ202は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)およびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMやROMが各種プログラムを記憶し、RAMがCPU201のワークエリアとして使用される。メモリ202に記憶されるプログラムは、CPU201にロードされることで、コーディングされている処理をCPU201に実行させる。
ネットワークI/F203は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して他のコンピュータに接続される。そして、ネットワークI/F203は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークI/F203には、例えば、モデムやLAN(Local Area Network)アダプタなどを採用することができる。
記録媒体I/F204は、CPU201の制御に従って記録媒体205に対するデータのリード/ライトを制御する。記録媒体I/F204は、例えば、ディスクドライブ、SSD(Solid State Drive)、USB(Universal Serial Bus)ポートなどである。記録媒体205は、記録媒体I/F204の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体205は、例えば、ディスク、半導体メモリ、USBメモリなどである。記録媒体205は、解析装置100から着脱可能であってもよい。
解析装置100は、上述した構成部のほか、例えば、キーボード、マウス、ディスプレイ、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、解析装置100は、記録媒体I/F204や記録媒体205を有していなくてもよい。
(解析装置100の機能的構成例)
次に、図3を用いて、解析装置100の機能的構成例について説明する。
図3は、解析装置100の機能的構成例を示すブロック図である。解析装置100は、記憶部300と、取得部301と、生成部302と、評価部303と、出力部304とを含む。
記憶部300は、例えば、図2に示したメモリ202や記録媒体205などの記憶領域によって実現される。取得部301〜出力部304は、制御部となる機能である。取得部301〜出力部304は、具体的には、例えば、図2に示したメモリ202や記録媒体205などの記憶領域に記憶されたプログラムをCPU201に実行させることにより、または、ネットワークI/F203により、その機能を実現する。各機能部の処理結果は、例えば、図2に示したメモリ202や記録媒体205などの記憶領域に記憶される。
記憶部300は、述語項構造を解析する際に用いられる辞書や項同定モデル、文脈の一貫性を評価する際に用いられる一貫性モデルなどを記憶する。述語項構造は、述語と、述語にかかる項との関係を示す情報である。述語は、事象を記述する語句である。項は、事象を記述する際に用いられる要素を記述する語句であり、例えば、主語や目的語である。一貫性モデルは、例えば、Entity Gridモデルである。項同定モデルや一貫性モデルは、例えば、教師データに基づいて機械学習により生成される。
取得部301は、対象文書を取得する。対象文書は、述語項構造を解析する解析対象になる文書である。対象文書は、例えば、日本語で記述された文書である。対象文書は、例えば、日本語以外で記述された文書であってもよい。
生成部302は、取得部301が取得した対象文書のうち、所定単位の文章ごとに、述語項構造の1以上の解析結果候補を生成する。所定単位は、例えば、一文である。一文は、例えば、改行で終了する文である。一文は、例えば、句点で終了する文であってもよい。所定単位は、例えば、節や段落であってもよい。解析結果候補は、例えば、文章における述語と、述語にかかる文章における主語や目的語などの項になる名詞とを対応付けた情報である。
生成部302は、例えば、対象文書のうち、一文ごとに、当該一文における述語を特定する。次に、生成部302は、一文ごとに特定した述語にかかる当該一文における主語や目的語などの項になりうる項候補として、1以上の名詞を特定する。名詞は、一文における記述省略された名詞であってもよい。そして、生成部302は、一文ごとに特定した述語と、当該一文における1以上の名詞のいずれかの名詞を対応付けた、当該一文に対応する述語項構造の解析結果候補を生成する。これにより、生成部302は、所定単位の文章に対応する述語項構造の解析結果になりうる1以上の解析結果候補を生成することができる。
生成部302は、所定単位の文章ごとに、所定種別と判断される、当該文章における1以上の名詞のそれぞれの名詞について、所定種別としての尤度を算出してもよい。所定種別は、述語にかかる項の種別であり、格である。格は、例えば、ガ格、ヲ格、ニ格などである。そして、生成部302は、所定単位の文章ごとに、当該文章における述語に、算出した尤度が所定値以上の名詞のそれぞれの名詞を対応付けた、1以上の解析結果候補を生成する。これにより、生成部302は、所定単位の文章に対応する述語項構造の解析結果になる可能性が比較的低い解析結果候補を生成せず、評価部303の処理量の低減化を図ることができる。
生成部302は、所定単位の文章ごとに生成した1以上の解析結果候補のいずれかの解析結果候補を選択して組み合わせた、複数の解析結果候補集合を生成する。解析結果候補集合は、文章ごとの解析結果候補を一つずつ選択して組み合わせた情報である。解析結果候補集合は、例えば、文書の文章ごとに、文章における述語と、述語にかかる文章における主語や目的語などの項になる名詞とを対応付けた情報である。生成部302は、例えば、一文ごとに生成した1以上の解析結果候補のいずれかの解析結果候補を選択して組み合わせた、複数の解析結果候補集合を生成する。これにより、生成部302は、対象文書全体に対応する解析結果になりうる複数の解析結果候補集合を生成し、対象文書全体に対応する述語項構造の解析結果として相対的にふさわしいと判断される解析結果候補集合を選択可能にすることができる。
評価部303は、生成部302が生成した複数の解析結果候補集合のそれぞれの解析結果候補集合について文脈の一貫性を評価する。文脈の一貫性は、例えば、論理展開に整合性があることであり、文書にまとまりがあることである。文脈の一貫性は、具体的には、一貫性モデルを用いて評価される。一貫性モデルは、例えば、Entity Gridモデルである。
評価部303は、例えば、それぞれの解析結果候補集合について、連続する2つの解析結果候補のうち前段の解析結果候補において第1種別と判断され、後段の解析結果候補において第2種別と判断された名詞の数を算出する。第1種別は、例えば、ガ格、ヲ格、ニ格などである。第2種別は、例えば、ガ格、ヲ格、ニ格などである。第1種別と第2種別とが同一であってもよい。そして、評価部303は、算出した名詞の数が大きいほど、文脈の一貫性を示す評価値が大きくなるように、評価値を算出する。
評価部303は、具体的には、生成した複数の解析結果候補集合のそれぞれの解析結果候補集合について、Entity Gridモデルを用いて、文脈の一貫性を示す評価値を算出する。これにより、評価部303は、対象文書全体に対応する述語項構造の解析結果として相対的にふさわしいと判断される解析結果候補集合を選択する際に用いられる指標になる評価値を算出することができる。このため、評価部303は、出力部304がいずれの解析結果候補集合を出力するか決定可能にすることができる。
出力部304は、評価部303が評価した結果に基づいて、複数の解析結果候補集合のいずれかの解析結果候補集合を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークI/F203による外部装置への送信、または、メモリ202や記録媒体205などの記憶領域への記憶である。
出力部304は、例えば、それぞれの解析結果候補集合について算出した評価値に基づいて、複数の解析結果候補集合のいずれかの解析結果候補集合を出力する。出力部304は、評価値が最大である解析結果候補集合を、対象文書全体に対応する述語項構造の解析結果として出力することができる。そして、出力部304は、対象文書全体に対応する述語項構造の解析結果を、質問応答システム、文書校正システム、または自動応答システムなどに利用可能にすることができる。また、出力部304は、対象文書全体に対応する述語項構造の解析結果を、解析装置100の利用者が把握可能にすることもできる。
出力部304は、各機能部の処理結果を出力してもよい。これにより、出力部304は、各機能部の処理結果を、質問応答システム、文書校正システム、または自動応答システムなどに利用可能にすることができる。また、出力部304は、各機能部の処理結果を、解析装置100の利用者が把握可能にすることもできる。
(解析装置100が対象文書400の述語項構造を解析する流れ)
次に、図4および図5を用いて、解析装置100が対象文書400の述語項構造を解析する流れについて説明する。
図4は、解析装置100が解析結果候補集合を生成する流れを示す説明図である。図4の例では、解析装置100は、対象文書400を受け付ける。解析装置100は、対象文書400の文401,402における述語を同定する。以下の説明では、述語を同定することを「述語同定」と表記する場合がある。
解析装置100は、同定した対象文書400の文401,402における述語にかかる項になりうる項候補として、対象文書400の文401,402における名詞を生成する。解析装置100は、項候補となる名詞を同定し、項候補となる名詞がガ格、ヲ格、二格のいずれの格になりうるかを判断する。以下の説明では、項候補となる名詞を同定し、項候補となる名詞がなりうる格を判断することを「項同定」と表記する場合がある。
ここで、解析装置100は、1つの名詞が2以上の異なる格のどちらにもなりうると判断してもよいし、異なる2以上の名詞のいずれかが1つの格になりうると判断してもよい。そして、解析装置100は、対象文書400の文401,402ごとの項同定の結果として、表411を生成する。
解析装置100は、表411に基づいて、一文ごとに同定した述語に、当該述語にかかる1以上の項候補のいずれかの項候補を対応付けた、対象文書400全体に対応する解析結果になりうる、解析結果候補集合421,422を生成する。ここで、図5の説明に移行する。
図5は、解析装置100が解析結果候補集合を出力する流れを示す説明図である。図5の例では、解析装置100は、一貫性モデルを用いて、解析結果候補集合421,422について文脈の一貫性について評価する。
解析装置100は、例えば、対象文書400の文401ではガ格と判断され、文401と連続する対象文書400の文402でもガ格と判断された名詞の割合などを算出する。解析装置100は、算出した割合に基づいて、一貫性モデルによるランキングを実行し、解析結果候補集合421,422を、文脈の一貫性を示す評価値の大きい方から順位付けする。解析装置100は、例えば、解析結果候補集合421について算出した評価値p1が、解析結果候補集合422について算出した評価値p2より大きければ、解析結果候補集合421を第1位とし、解析結果候補集合422を第2位とする。
解析装置100は、第1位の解析結果候補集合421を、対象文書400全体に対応する述語項構造の解析結果として相対的にふさわしいと判断し、第1位の解析結果候補集合421を、対象文書400全体に対応する述語項構造の解析結果として出力する。これにより、解析装置100は、対象文書400の述語項構造の解析精度の向上を図ることができる。
(解析装置100が対象文書600の述語項構造を解析する具体例)
次に、図6〜図10を用いて、解析装置100が対象文書600の述語項構造を解析する具体例について説明する。まず、図6を用いて、対象文書600の具体例について説明する。
図6は、対象文書600の具体例を示す説明図である。図6において、解析装置100は、対象文書600を受け付ける。図6の例では、対象文書600は、文1〜文4を含んでいる。対象文書600における述語が、太字で示されている。対象文書600における主語や目的語などの項が、下線で示されている。
図6において、文1は「夕方、太郎はもう一度あの公園に行った。」である。文1における述語は、例えば、「行く(行った)」である。文1における主語や目的語などの項は、記述省略されていない。
図6において、文2は「入り口で足を止める。風がブランコを揺らし、空き缶を転がしていく。」である。文2における述語は、例えば、「止める」、「揺らす(揺らし)」、「転がす(転がしていく)」である。文2における述語「止める」にかかる主語「太郎」は、文1における主語「太郎」を流用するものであるため、文2において記述省略されている。
図6において、文3は「車が走る音が遠くから聞こえてきた。」である。文3における述語は、例えば、「聞こえる(聞こえてきた)」である。文3における主語や目的語などの項は、記述省略されていない。
図6において、文4は「昼間の喧噪がまるで夢であったかのように感じられた。」である。文4における述語は、例えば、「感じる(感じられた)」である。文4における述語「感じる」にかかる主語「太郎」は、文1における主語「太郎」を流用するものであるため、文4において記述省略されている。ここで、図7の説明に移行する。
図7は、解析装置100が解析結果候補を生成する具体例を示す説明図である。図7において、解析装置100は、対象文書600の一文ごとに、品詞情報を用いて、述語同定を実行する。解析装置100は、例えば、対象文書600の一文ごとに、品詞が動詞、形容詞、名詞−形容動詞語幹である単語を、述語として同定する。解析装置100は、単語の品詞推定に、既存の形態素解析器を利用することができる。
次に、解析装置100は、対象文書600の一文ごとに、項候補を生成する。解析装置100は、例えば、述語より前に出現する名詞を、当該述語にかかる項候補として生成する。解析装置100は、具体的には、述語を含む一文から2つ前の一文までに出現する名詞を、当該述語にかかる項候補として生成する。
これにより、解析装置100は、述語を含む一文において記述省略されている名詞についても、項候補として生成することができる。解析装置100は、項候補の生成に、既存の述語項構造解析器を利用することができる。解析装置100は、具体的には、項候補の生成に、単語が受動態であるか、単語に接続された格助詞の種別、単語間の係り受け、単語間の修飾関係、単語間の距離などを利用することができる。
そして、解析装置100は、項同定モデルを用いたランキングを実行し、項同定を実行する。解析装置100は、例えば、格ごとに、同定した述語にかかる項候補について、当該格の項候補としての尤もらしさを示す尤度を算出し、算出した尤度に基づいて順位付ける。解析装置100は、述語の種別によっては、いずれかの格について項候補を順位付けなくてもよい。解析装置100は、具体的には、述語が自動詞であれば、ヲ格について項候補を順位付けない。
その後、解析装置100は、格ごとに上位に順位付けられた1以上の項候補を、当該格になりうる項候補として同定し、同定した結果として表701を生成する。これにより、解析装置100は、一文に対応する述語項構造の解析結果に含まれる可能性が比較的低い項候補を同定せず、文脈の一貫性の評価にかかる処理量の低減化を図ることができる。ここで、図8の説明に移行する。
図8は、解析装置100が解析結果候補集合を生成する具体例を示す説明図である。図8において、解析装置100は、表701に基づいて、対象文書600の一文ごとに、同定した述語に、同定した格ごとの項候補を対応付けて生成可能である、1以上の解析結果候補を生成する。そして、解析装置100は、一文ごとに生成した1以上の解析結果候補を選択して組み合わせた、複数の解析結果候補集合を生成する。
解析装置100は、例えば、文1についての解析結果候補811や文2についての解析結果候補812などを選択して組み合わせた、解析結果候補集合801を生成する。解析結果候補811は、例えば、述語「行く」に、ガ格の項候補「太郎」と二格の項候補「公園」とを対応付ける。解析結果候補812は、例えば、述語「止める」に、ガ格の項候補「公園」とヲ格の項候補「足」とを、述語「揺らす」に、ガ格の項候補「風」とヲ格の項候補「ブランコ」とを、述語「転がす」に、ガ格の項候補「太郎」とヲ格の項候補「空き缶」とを対応付ける。
また、解析装置100は、解析結果候補集合802,803を生成する。結果として、解析装置100は、8つの解析結果候補集合を生成したとする。これにより、解析装置100は、いずれの解析結果候補集合が、対象文書600全体に対応する述語項構造の解析結果に相対的にふさわしいかを判断可能にすることができる。ここで、図9の説明に移行する。
図9は、解析装置100が解析結果候補集合を出力する具体例を示す説明図である。図9において、解析装置100は、一貫性モデルによるランキングを実行する。解析装置100は、例えば、Entity Gridモデルを用いて、複数の解析結果候補集合のそれぞれの解析結果候補集合について、文脈の一貫性のよさを示す評価値を算出する。評価値を算出する詳細は、図10に後述する。
次に、解析装置100は、算出した評価値に基づくランキングを実行し、生成した複数の解析結果候補集合を、評価値の大きい方から順位付けする。ここでは、解析装置100は、解析結果候補集合803を第1位に設定する。そして、解析装置100は、第1位の解析結果候補集合803を、対象文書600全体に対応する述語項構造の解析結果として相対的にふさわしいと判断し、第1位の解析結果候補集合803を、対象文書600全体に対応する述語項構造の解析結果として出力する。これにより、解析装置100は、対象文書600の述語項構造の解析精度の向上を図ることができる。
ここでは、解析装置100が、第1位の解析結果候補集合を出力する場合について説明したが、これに限らない。例えば、解析装置100が、第1位から所定順位までの解析結果候補集合を出力する場合があってもよい。この場合、解析装置100の利用者が、出力された解析結果候補集合のうち、対象文書600全体に対応する述語項構造の解析結果を選択してもよい。ここで、図10の説明に移行する。
図10は、解析装置100が文脈の一貫性を評価する具体例を示す説明図である。図10において、解析装置100は、複数の解析結果候補集合のそれぞれの解析結果候補集合について、文脈の一貫性のよさを示す評価値を算出する。
ここで、文脈に一貫性がある文書においては、ある名詞が、連続する2つの文章のうち先行の文章で所定の第1の格になる場合、同じ名詞が、後続の文章で出現しやすく、後続の文章で所定の第2の格になる性質がある。第1の格と第2の格とは同一であってもよい。例えば、同じ名詞が、連続する2つの文章のそれぞれの文章に共通して、ガ格として出現するという場合がある。また、連続する2つの文章の先行の文章でガ格として出現し、後続の文章でヲ格として出現するという場合がある。
解析装置100は、この性質を利用したEntity Gridモデルを用いて、複数の解析結果候補集合のそれぞれの解析結果候補集合について、文脈の一貫性のよさを示す評価値を算出する。Entity Gridモデルは、所定の格になる項候補が出現する規則性に基づいて、文脈の一貫性のよさを評価するモデルである。
Entity Gridモデルは、構文役割の遷移確率を素性として文書をモデル化する。Entity Gridモデルは、例えば、対象文書600の要素、例えば、名詞が、どのように格遷移を行っているかという情報に基づいて、一貫性のよさを評価する。いずれの要素が、どのように格遷移を行っている場合に、一貫性がよいと評価するかは、例えば、大量の教師データに基づいて機械学習される。
以下では、解析装置100が、解析結果候補集合801について評価値を算出する場合について説明する。解析装置100は、具体的には、解析結果候補集合801に基づいて、対象文書600のそれぞれの文における、対象文書600のそれぞれの名詞がなりうる格をマッピングした結果を示す表1000を生成する。
解析装置100は、表1000に基づいて、文1から文2に移行する際に、対象文書600のそれぞれの名詞が、ガ格からガ格に遷移したか、ガ格からNULLに遷移したか、二格からガ格に遷移したかなどを判定する。NULLは、出現しないことを示す。また、解析装置100は、遷移パターンの総数として、対象文書600の文の数「4」から「1」を減算した数「3」に、名詞の数「13」を乗算した数「39」を算出する。
そして、解析装置100は、遷移パターンの総数に対する名詞がガ格からガ格に遷移した数の割合「1/39」などを算出する。解析装置100は、算出した割合が大きいほど、評価値が大きくなるように、評価値を算出する。これにより、解析装置100は、文脈の一貫性を示す評価値を算出することができる。
以上のように、解析装置100は、一貫性モデルを用いることにより、対象文書600の大域的な文脈を考慮して、対象文書600全体に対応する述語項構造の解析結果を出力することができる。このため、解析装置100は、対象文書600の述語項構造の解析精度の向上を図ることができる。
ここで、一貫性モデルを用いずに対象文書600の述語項構造を解析する技術では、対象文書600の大域的な文脈を考慮しないため、記述省略された項に対応する記述省略されていない項が比較的離れた位置にあると、解析精度の低下を招いてしまう。これに対し、解析装置100は、対象文書600の大域的な文脈を考慮し、記述省略された項に対応する記述省略されていない項が比較的離れた位置にあっても、解析精度の向上を図ることができる。
(解析処理手順の一例)
次に、図11を用いて、解析装置100が実行する解析処理手順の一例について説明する。
図11は、解析処理手順の一例を示すフローチャートである。図11において、まず、解析装置100は、対象文書を受け付ける(ステップS1101)。次に、解析装置100は、対象文書の一文ごとに述語同定を実行する(ステップS1102)。そして、解析装置100は、同定した述語にかかる1以上の項候補を生成する(ステップS1103)。さらに、解析装置100は、生成した項候補について項同定を実行する(ステップS1104)。
次に、解析装置100は、対象文書の一文ごとに同定した述語に、同定した項ごとの項候補を選択して組み合わせることにより、複数の解析結果候補集合を生成する(ステップS1105)。そして、解析装置100は、Entity Gridモデルを用いて、複数の解析結果候補集合のそれぞれの解析結果候補集合について、文脈の一貫性を示す評価値を算出する(ステップS1106)。
次に、解析装置100は、複数の解析結果候補集合のそれぞれの解析結果候補集合について算出した評価値に基づいて、対象文書全体の解析結果として、複数の解析結果候補集合のいずれかの解析結果候補集合を出力する(ステップS1107)。そして、解析装置100は、解析処理を終了する。これにより、解析装置100は、対象文書全体に対応する述語項構造の精度のよい解析結果を出力することができる。
以上説明したように、解析装置100によれば、対象文書のうち、所定単位の文章ごとに、述語項構造の1以上の解析結果候補を生成することができる。解析装置100によれば、所定単位の文章ごとに生成した1以上の解析結果候補のいずれかの解析結果候補を選択して組み合わせた、複数の解析結果候補集合を生成することができる。解析装置100によれば、生成した複数の解析結果候補集合のそれぞれの解析結果候補集合について文脈の一貫性を評価することができる。解析装置100によれば、評価した結果に基づいて、複数の解析結果候補集合のいずれかの解析結果候補集合を出力することができる。これにより、解析装置100は、文書の大域的な文脈のよさを考慮して、精度のよい解析結果候補集合を出力しやすくすることができ、述語項構造の解析精度の向上を図ることができる。
解析装置100によれば、所定単位の文章ごとに、所定種別と判断される、当該文章における1以上の名詞のそれぞれの名詞について、所定種別としての尤度を算出することができる。解析装置100によれば、所定単位の文章ごとに、当該文章における述語に、算出した尤度が所定値以上の名詞のそれぞれの名詞を対応付けた、1以上の解析結果候補を生成することができる。これにより、生成部302は、所定単位の文章に対応する述語項構造の解析結果になる可能性が比較的低い解析結果候補を生成せず、文脈の一貫性の評価にかかる処理量の低減化を図ることができる。
解析装置100によれば、それぞれの解析結果候補集合について、前段の解析結果候補において第1種別と判断され、後段の解析結果候補において第2種別と判断された名詞の数が大きいほど、評価値が大きくなるように、評価値を算出することができる。解析装置100によれば、それぞれの解析結果候補集合について算出した評価値に基づいて、複数の解析結果候補集合のいずれかの解析結果候補集合を出力することができる。これにより、解析装置100は、連続する文章において同じ名詞がガ格になりやすい性質などを利用し、文脈の一貫性を示す評価値を精度よく算出することができる。
解析装置100によれば、生成した複数の解析結果候補集合のそれぞれの解析結果候補集合について、Entity Gridモデルを用いて、文脈の一貫性を示す評価値を算出することができる。これにより、解析装置100は、教師データに基づいて機械学習されたEntity Gridモデルを用いて、文脈の一貫性を示す評価値を精度よく算出することができる。
解析装置100によれば、所定単位の文章における名詞に、所定単位の文章における記述省略された名詞を特定することができる。これにより、解析装置100は、所定単位の文章における記述省略された名詞を、解析結果候補集合に含むことができ、精度のよい解析結果集合を出力しやすくすることができる。
なお、本実施の形態で説明した解析方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本解析プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また本解析プログラムは、インターネット等のネットワークを介して配布してもよい。
上述した実施の形態に関し、さらに以下の付記を開示する。
(付記1)述語項構造の解析対象になる対象文書を取得し、
取得した前記対象文書のうち、所定単位の文章ごとに、述語項構造の1以上の解析結果候補を生成し、
前記所定単位の文章ごとに生成した前記1以上の解析結果候補のいずれかの解析結果候補を選択して組み合わせた、複数の解析結果候補集合を生成し、
生成した前記複数の解析結果候補集合のそれぞれの解析結果候補集合について文脈の一貫性を評価し、
評価した結果に基づいて、前記複数の解析結果候補集合のいずれかの解析結果候補集合を出力する、
制御部を有することを特徴とする解析装置。
(付記2)前記制御部は、
前記所定単位の文章ごとに、所定種別と判断される、当該文章における1以上の名詞のそれぞれの名詞について、前記所定種別としての尤度を算出し、
前記所定単位の文章ごとに、当該文章における述語に、算出した前記尤度が所定値以上の名詞のそれぞれの名詞を対応付けた、前記1以上の解析結果候補を生成する、ことを特徴とする付記1に記載の解析装置。
(付記3)前記制御部は、
前記それぞれの解析結果候補集合について、連続する2つの解析結果候補のうち前段の解析結果候補において第1種別と判断され、後段の解析結果候補において第2種別と判断された名詞の数が大きいほど、文脈の一貫性を示す評価値が大きくなるように、前記評価値を算出し、
前記それぞれの解析結果候補集合について算出した前記評価値に基づいて、前記複数の解析結果候補集合のいずれかの解析結果候補集合を出力する、ことを特徴とする付記2に記載の解析装置。
(付記4)前記制御部は、
生成した前記複数の解析結果候補集合のそれぞれの解析結果候補集合について、Entity Gridモデルを用いて、文脈の一貫性を示す評価値を算出する、ことを特徴とする付記3に記載の解析装置。
(付記5)前記所定単位の文章における名詞は、前記所定単位の文章における記述省略された名詞を含む、ことを特徴とする付記2〜4のいずれか一つに記載の解析装置。
(付記6)コンピュータが、
述語項構造の解析対象になる対象文書を取得し、
取得した前記対象文書のうち、所定単位の文章ごとに、述語項構造の1以上の解析結果候補を生成し、
前記所定単位の文章ごとに生成した前記1以上の解析結果候補のいずれかの解析結果候補を選択して組み合わせた、複数の解析結果候補集合を生成し、
生成した前記複数の解析結果候補集合のそれぞれの解析結果候補集合について文脈の一貫性を評価し、
評価した結果に基づいて、前記複数の解析結果候補集合のいずれかの解析結果候補集合を出力する、
処理を実行することを特徴とする解析方法。
(付記7)コンピュータに、
述語項構造の解析対象になる対象文書を取得し、
取得した前記対象文書のうち、所定単位の文章ごとに、述語項構造の1以上の解析結果候補を生成し、
前記所定単位の文章ごとに生成した前記1以上の解析結果候補のいずれかの解析結果候補を選択して組み合わせた、複数の解析結果候補集合を生成し、
生成した前記複数の解析結果候補集合のそれぞれの解析結果候補集合について文脈の一貫性を評価し、
評価した結果に基づいて、前記複数の解析結果候補集合のいずれかの解析結果候補集合を出力する、
処理を実行させることを特徴とする解析プログラム。