JP6907703B2

JP6907703B2 - 解析装置、解析方法、および解析プログラム

Info

Publication number: JP6907703B2
Application number: JP2017102345A
Authority: JP
Inventors: 光横野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-05-24
Filing date: 2017-05-24
Publication date: 2021-07-21
Anticipated expiration: 2037-05-24
Also published as: JP2018197953A

Description

本発明は、解析装置、解析方法、および解析プログラムに関する。

従来、文書の述語項構造を解析するための技術がある。述語項構造は、述語と、述語にかかる項との関係を示す情報である。述語は、事象を記述する語句である。項は、事象を記述する際に用いられる要素を記述する語句であり、例えば、主語や目的語である。

先行技術としては、例えば、候補名詞句中の各候補が各格であるときの項スコアを算出し、格ごとに項スコア最大の候補を取得して述語の項とするものがある。また、例えば、テキストの係り受け状態および格変換規則テーブルの規則を用いて、入力されたテキストを、述語および動作性名詞の項構造に変換して出力する技術がある。また、例えば、格ごとに、述語と候補名詞句との組み合わせの各々および格について生成された素性集合と、予め学習された項同定モデルとに基づいて、述語に対応する格を同定する技術がある。

特開２０１１−１３７７６号公報特開２００９−１７６１６８号公報特開２０１５−５２９９２号公報

しかしながら、従来技術では、文書の述語項構造を精度よく解析することが難しい。例えば、日本語で記述された文書においては主語や目的語などが記述省略されることがあり、述語にかかる主語や目的語などを精度よく特定することが難しくなる。

１つの側面では、本発明は、文書の述語項構造の解析精度の向上を図ることができる解析装置、解析方法、および解析プログラムを提供することを目的とする。

１つの実施態様によれば、述語項構造の解析対象になる対象文書を取得し、取得した前記対象文書のうち、所定単位の文章ごとに、述語項構造の１以上の解析結果候補を生成し、前記所定単位の文章ごとに生成した前記１以上の解析結果候補のいずれかの解析結果候補を選択して組み合わせた、複数の解析結果候補集合を生成し、生成した前記複数の解析結果候補集合のそれぞれの解析結果候補集合について文脈の一貫性を評価し、評価した結果に基づいて、前記複数の解析結果候補集合のいずれかの解析結果候補集合を出力する、解析装置、解析方法、および解析プログラムが提案される。

本発明の一態様によれば、文書の述語項構造の解析精度の向上を図ることができるという効果を奏する。

図１は、実施の形態にかかる解析方法の一実施例を示す説明図である。図２は、解析装置１００のハードウェア構成例を示すブロック図である。図３は、解析装置１００の機能的構成例を示すブロック図である。図４は、解析装置１００が解析結果候補集合を生成する流れを示す説明図である。図５は、解析装置１００が解析結果候補集合を出力する流れを示す説明図である。図６は、対象文書６００の具体例を示す説明図である。図７は、解析装置１００が解析結果候補を生成する具体例を示す説明図である。図８は、解析装置１００が解析結果候補集合を生成する具体例を示す説明図である。図９は、解析装置１００が解析結果候補集合を出力する具体例を示す説明図である。図１０は、解析装置１００が文脈の一貫性を評価する具体例を示す説明図である。図１１は、解析処理手順の一例を示すフローチャートである。

以下に、図面を参照して、本発明にかかる解析装置、解析方法、および解析プログラムの実施の形態を詳細に説明する。

（実施の形態にかかる解析方法の一実施例）
図１は、実施の形態にかかる解析方法の一実施例を示す説明図である。解析装置１００は、対象文書の述語項構造を解析するコンピュータである。解析装置１００は、例えば、サーバやＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）などである。

対象文書は、述語項構造を解析する解析対象になる文書である。対象文書は、例えば、日本語で記述された文書である。対象文書は、例えば、日本語以外で記述された文書であってもよい。述語項構造は、述語と、述語にかかる項との関係を示す情報である。述語は、事象を記述する語句である。述語は、例えば、用言である。項は、事象を記述する際に用いられる要素を記述する語句であり、例えば、主語や目的語である。

ここで、質問応答システムのような、入力された文書を知識源とするシステムにおいては、文書の述語項構造を精度よく解析することが求められる傾向がある。しかしながら、文書の述語項構造を精度よく解析することは難しい。例えば、日本語で記述された文書においては主語や目的語などの項が記述省略されることがあり、述語にかかる主語や目的語などの項を精度よく特定することが難しくなる。

これに対し、文書の局所的な文脈を考慮して記述省略された主語や目的語などの項を解析し、文書の述語項構造を解析する場合が考えられる。しかしながら、この場合、文書の大域的な文脈を考慮することができず、記述省略された項に対応する記述省略されていない項が比較的離れた位置にあると、述語にかかる項を精度よく特定することが難しくなるため、述語項構造を精度よく解析することが難しい。

さらに、一貫性モデルを用いて、文書の述語項構造を解析した解析結果が、文書の大域的な文脈を考慮したものであるかを評価する場合も考えられる。しかしながら、この場合、文書の述語項構造を解析した解析結果について文書の大域的な文脈の一貫性のよさを一定以上評価されても、より精度のよい他の解析結果があるか否かが分からず、より精度のよい他の解析結果を特定することができない。

そこで、本実施の形態では、対象文書全体に対応する複数の解析結果候補のうち、文脈の一貫性を評価した結果に応じて、いずれかの解析結果候補を、精度のよい対象文書全体に対応する解析結果として選択することができる解析方法について説明する。

図１の例では、解析装置１００は、対象文書１０１を取得する。対象文書１０１は、例えば、解析装置１００の利用者によって、解析装置１００に入力される。対象文書１０１は、例えば、解析装置１００とは異なる装置から、ネットワークを介して、解析装置１００に受信されてもよい。

（１−１）解析装置１００は、取得した対象文書１０１のうち、所定単位の文章ごとに、述語項構造の１以上の解析結果候補を生成する。所定単位は、例えば、一文である。所定単位は、例えば、節や段落であってもよい。解析結果候補は、例えば、文章における述語と、述語にかかる文章における主語や目的語などの項になる名詞とを対応付けた情報である。これにより、解析装置１００は、所定単位の文章に対応する解析結果になりうる１以上の解析結果候補を生成することができる。

（１−２）解析装置１００は、所定単位の文章ごとに生成した１以上の解析結果候補のいずれかの解析結果候補を選択して組み合わせた、複数の解析結果候補集合１０２を生成する。解析結果候補集合１０２は、文章ごとの解析結果候補を一つずつ選択して組み合わせた情報である。解析結果候補集合１０２は、例えば、文書の文章ごとに、文章における述語と、述語にかかる文章における主語や目的語などの項になる名詞とを対応付けた情報である。これにより、解析装置１００は、対象文書１０１全体に対応する解析結果になりうる複数の解析結果候補集合１０２を生成することができる。

（１−３）解析装置１００は、生成した複数の解析結果候補集合１０２のそれぞれの解析結果候補集合１０２について文脈の一貫性を評価した結果に基づいて、複数の解析結果候補集合１０２のいずれかの解析結果候補集合１０２を出力する。文脈の一貫性は、例えば、論理展開に整合性があることである。文脈の一貫性は、具体的には、一貫性モデルを用いて評価される。

解析装置１００は、例えば、それぞれの解析結果候補集合１０２について、ＥｎｔｉｔｙＧｒｉｄモデルを用いて、文脈の一貫性を評価した評価値を算出する。ＥｎｔｉｔｙＧｒｉｄモデルについては、例えば、下記参考文献１を参考にすることができる。解析装置１００は、それぞれの解析結果候補集合１０２について算出した評価値に基づいて、対象文書全体に対応する解析結果１０３として、いずれかの解析結果候補集合１０２を出力する。

参考文献１：Ｂａｒｚｉｌａｙ，Ｒ．ａｎｄＬａｐａｔａ，Ｍ．， “ＭｏｄｅｌｉｎｇＬｏｃａｌＣｏｈｅｒｅｎｃｅ：ＡｎＥｎｔｉｔｙ−ＢａｓｅｄＡｐｐｒｏａｃｈ”，ＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，Ｖｏｌ．３４，Ｎｏ．１，２００８．

これにより、解析装置１００は、対象文書１０１全体に対応する解析結果になりうる複数の解析結果候補集合のうち、文脈の一貫性のよさに基づいて、文書の大域的な文脈のよさを考慮して、精度のよい解析結果候補集合を出力しやすくすることができる。このように、解析装置１００は、対象文書１０１全体に対応する述語項構造の解析結果として、精度のよい解析結果候補集合を出力することができ、述語項構造の解析精度の向上を図ることができる。

そして、解析装置１００は、例えば、対象文書１０１全体に対応する述語項構造の精度のよい解析結果を、質問応答システムのように文書を知識源とするシステムに利用させることができる。また、解析装置１００は、例えば、対象文書１０１全体に対応する述語項構造の精度のよい解析結果を、文書校正システムや自動応答システムなどに利用させてもよい。

（解析装置１００のハードウェア構成例）
次に、図２を用いて、解析装置１００のハードウェア構成例について説明する。

図２は、解析装置１００のハードウェア構成例を示すブロック図である。図２において、解析装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１と、メモリ２０２と、ネットワークＩ／Ｆ（Ｉｎｔｅｒｆａｃｅ）２０３と、記録媒体Ｉ／Ｆ２０４と、記録媒体２０５とを有する。また、各構成部は、バス２００によってそれぞれ接続される。

ここで、ＣＰＵ２０１は、解析装置１００の全体の制御を司る。メモリ２０２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびフラッシュＲＯＭなどを有する。具体的には、例えば、フラッシュＲＯＭやＲＯＭが各種プログラムを記憶し、ＲＡＭがＣＰＵ２０１のワークエリアとして使用される。メモリ２０２に記憶されるプログラムは、ＣＰＵ２０１にロードされることで、コーディングされている処理をＣＰＵ２０１に実行させる。

ネットワークＩ／Ｆ２０３は、通信回線を通じてネットワーク２１０に接続され、ネットワーク２１０を介して他のコンピュータに接続される。そして、ネットワークＩ／Ｆ２０３は、ネットワーク２１０と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークＩ／Ｆ２０３には、例えば、モデムやＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）アダプタなどを採用することができる。

記録媒体Ｉ／Ｆ２０４は、ＣＰＵ２０１の制御に従って記録媒体２０５に対するデータのリード／ライトを制御する。記録媒体Ｉ／Ｆ２０４は、例えば、ディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポートなどである。記録媒体２０５は、記録媒体Ｉ／Ｆ２０４の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体２０５は、例えば、ディスク、半導体メモリ、ＵＳＢメモリなどである。記録媒体２０５は、解析装置１００から着脱可能であってもよい。

解析装置１００は、上述した構成部のほか、例えば、キーボード、マウス、ディスプレイ、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、解析装置１００は、記録媒体Ｉ／Ｆ２０４や記録媒体２０５を有していなくてもよい。

（解析装置１００の機能的構成例）
次に、図３を用いて、解析装置１００の機能的構成例について説明する。

図３は、解析装置１００の機能的構成例を示すブロック図である。解析装置１００は、記憶部３００と、取得部３０１と、生成部３０２と、評価部３０３と、出力部３０４とを含む。

記憶部３００は、例えば、図２に示したメモリ２０２や記録媒体２０５などの記憶領域によって実現される。取得部３０１〜出力部３０４は、制御部となる機能である。取得部３０１〜出力部３０４は、具体的には、例えば、図２に示したメモリ２０２や記録媒体２０５などの記憶領域に記憶されたプログラムをＣＰＵ２０１に実行させることにより、または、ネットワークＩ／Ｆ２０３により、その機能を実現する。各機能部の処理結果は、例えば、図２に示したメモリ２０２や記録媒体２０５などの記憶領域に記憶される。

記憶部３００は、述語項構造を解析する際に用いられる辞書や項同定モデル、文脈の一貫性を評価する際に用いられる一貫性モデルなどを記憶する。述語項構造は、述語と、述語にかかる項との関係を示す情報である。述語は、事象を記述する語句である。項は、事象を記述する際に用いられる要素を記述する語句であり、例えば、主語や目的語である。一貫性モデルは、例えば、ＥｎｔｉｔｙＧｒｉｄモデルである。項同定モデルや一貫性モデルは、例えば、教師データに基づいて機械学習により生成される。

取得部３０１は、対象文書を取得する。対象文書は、述語項構造を解析する解析対象になる文書である。対象文書は、例えば、日本語で記述された文書である。対象文書は、例えば、日本語以外で記述された文書であってもよい。

生成部３０２は、取得部３０１が取得した対象文書のうち、所定単位の文章ごとに、述語項構造の１以上の解析結果候補を生成する。所定単位は、例えば、一文である。一文は、例えば、改行で終了する文である。一文は、例えば、句点で終了する文であってもよい。所定単位は、例えば、節や段落であってもよい。解析結果候補は、例えば、文章における述語と、述語にかかる文章における主語や目的語などの項になる名詞とを対応付けた情報である。

生成部３０２は、例えば、対象文書のうち、一文ごとに、当該一文における述語を特定する。次に、生成部３０２は、一文ごとに特定した述語にかかる当該一文における主語や目的語などの項になりうる項候補として、１以上の名詞を特定する。名詞は、一文における記述省略された名詞であってもよい。そして、生成部３０２は、一文ごとに特定した述語と、当該一文における１以上の名詞のいずれかの名詞を対応付けた、当該一文に対応する述語項構造の解析結果候補を生成する。これにより、生成部３０２は、所定単位の文章に対応する述語項構造の解析結果になりうる１以上の解析結果候補を生成することができる。

生成部３０２は、所定単位の文章ごとに、所定種別と判断される、当該文章における１以上の名詞のそれぞれの名詞について、所定種別としての尤度を算出してもよい。所定種別は、述語にかかる項の種別であり、格である。格は、例えば、ガ格、ヲ格、ニ格などである。そして、生成部３０２は、所定単位の文章ごとに、当該文章における述語に、算出した尤度が所定値以上の名詞のそれぞれの名詞を対応付けた、１以上の解析結果候補を生成する。これにより、生成部３０２は、所定単位の文章に対応する述語項構造の解析結果になる可能性が比較的低い解析結果候補を生成せず、評価部３０３の処理量の低減化を図ることができる。

生成部３０２は、所定単位の文章ごとに生成した１以上の解析結果候補のいずれかの解析結果候補を選択して組み合わせた、複数の解析結果候補集合を生成する。解析結果候補集合は、文章ごとの解析結果候補を一つずつ選択して組み合わせた情報である。解析結果候補集合は、例えば、文書の文章ごとに、文章における述語と、述語にかかる文章における主語や目的語などの項になる名詞とを対応付けた情報である。生成部３０２は、例えば、一文ごとに生成した１以上の解析結果候補のいずれかの解析結果候補を選択して組み合わせた、複数の解析結果候補集合を生成する。これにより、生成部３０２は、対象文書全体に対応する解析結果になりうる複数の解析結果候補集合を生成し、対象文書全体に対応する述語項構造の解析結果として相対的にふさわしいと判断される解析結果候補集合を選択可能にすることができる。

評価部３０３は、生成部３０２が生成した複数の解析結果候補集合のそれぞれの解析結果候補集合について文脈の一貫性を評価する。文脈の一貫性は、例えば、論理展開に整合性があることであり、文書にまとまりがあることである。文脈の一貫性は、具体的には、一貫性モデルを用いて評価される。一貫性モデルは、例えば、ＥｎｔｉｔｙＧｒｉｄモデルである。

評価部３０３は、例えば、それぞれの解析結果候補集合について、連続する２つの解析結果候補のうち前段の解析結果候補において第１種別と判断され、後段の解析結果候補において第２種別と判断された名詞の数を算出する。第１種別は、例えば、ガ格、ヲ格、ニ格などである。第２種別は、例えば、ガ格、ヲ格、ニ格などである。第１種別と第２種別とが同一であってもよい。そして、評価部３０３は、算出した名詞の数が大きいほど、文脈の一貫性を示す評価値が大きくなるように、評価値を算出する。

評価部３０３は、具体的には、生成した複数の解析結果候補集合のそれぞれの解析結果候補集合について、ＥｎｔｉｔｙＧｒｉｄモデルを用いて、文脈の一貫性を示す評価値を算出する。これにより、評価部３０３は、対象文書全体に対応する述語項構造の解析結果として相対的にふさわしいと判断される解析結果候補集合を選択する際に用いられる指標になる評価値を算出することができる。このため、評価部３０３は、出力部３０４がいずれの解析結果候補集合を出力するか決定可能にすることができる。

出力部３０４は、評価部３０３が評価した結果に基づいて、複数の解析結果候補集合のいずれかの解析結果候補集合を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークＩ／Ｆ２０３による外部装置への送信、または、メモリ２０２や記録媒体２０５などの記憶領域への記憶である。

出力部３０４は、例えば、それぞれの解析結果候補集合について算出した評価値に基づいて、複数の解析結果候補集合のいずれかの解析結果候補集合を出力する。出力部３０４は、評価値が最大である解析結果候補集合を、対象文書全体に対応する述語項構造の解析結果として出力することができる。そして、出力部３０４は、対象文書全体に対応する述語項構造の解析結果を、質問応答システム、文書校正システム、または自動応答システムなどに利用可能にすることができる。また、出力部３０４は、対象文書全体に対応する述語項構造の解析結果を、解析装置１００の利用者が把握可能にすることもできる。

出力部３０４は、各機能部の処理結果を出力してもよい。これにより、出力部３０４は、各機能部の処理結果を、質問応答システム、文書校正システム、または自動応答システムなどに利用可能にすることができる。また、出力部３０４は、各機能部の処理結果を、解析装置１００の利用者が把握可能にすることもできる。

（解析装置１００が対象文書４００の述語項構造を解析する流れ）
次に、図４および図５を用いて、解析装置１００が対象文書４００の述語項構造を解析する流れについて説明する。

図４は、解析装置１００が解析結果候補集合を生成する流れを示す説明図である。図４の例では、解析装置１００は、対象文書４００を受け付ける。解析装置１００は、対象文書４００の文４０１，４０２における述語を同定する。以下の説明では、述語を同定することを「述語同定」と表記する場合がある。

解析装置１００は、同定した対象文書４００の文４０１，４０２における述語にかかる項になりうる項候補として、対象文書４００の文４０１，４０２における名詞を生成する。解析装置１００は、項候補となる名詞を同定し、項候補となる名詞がガ格、ヲ格、二格のいずれの格になりうるかを判断する。以下の説明では、項候補となる名詞を同定し、項候補となる名詞がなりうる格を判断することを「項同定」と表記する場合がある。

ここで、解析装置１００は、１つの名詞が２以上の異なる格のどちらにもなりうると判断してもよいし、異なる２以上の名詞のいずれかが１つの格になりうると判断してもよい。そして、解析装置１００は、対象文書４００の文４０１，４０２ごとの項同定の結果として、表４１１を生成する。

解析装置１００は、表４１１に基づいて、一文ごとに同定した述語に、当該述語にかかる１以上の項候補のいずれかの項候補を対応付けた、対象文書４００全体に対応する解析結果になりうる、解析結果候補集合４２１，４２２を生成する。ここで、図５の説明に移行する。

図５は、解析装置１００が解析結果候補集合を出力する流れを示す説明図である。図５の例では、解析装置１００は、一貫性モデルを用いて、解析結果候補集合４２１，４２２について文脈の一貫性について評価する。

解析装置１００は、例えば、対象文書４００の文４０１ではガ格と判断され、文４０１と連続する対象文書４００の文４０２でもガ格と判断された名詞の割合などを算出する。解析装置１００は、算出した割合に基づいて、一貫性モデルによるランキングを実行し、解析結果候補集合４２１，４２２を、文脈の一貫性を示す評価値の大きい方から順位付けする。解析装置１００は、例えば、解析結果候補集合４２１について算出した評価値ｐ１が、解析結果候補集合４２２について算出した評価値ｐ２より大きければ、解析結果候補集合４２１を第１位とし、解析結果候補集合４２２を第２位とする。

解析装置１００は、第１位の解析結果候補集合４２１を、対象文書４００全体に対応する述語項構造の解析結果として相対的にふさわしいと判断し、第１位の解析結果候補集合４２１を、対象文書４００全体に対応する述語項構造の解析結果として出力する。これにより、解析装置１００は、対象文書４００の述語項構造の解析精度の向上を図ることができる。

（解析装置１００が対象文書６００の述語項構造を解析する具体例）
次に、図６〜図１０を用いて、解析装置１００が対象文書６００の述語項構造を解析する具体例について説明する。まず、図６を用いて、対象文書６００の具体例について説明する。

図６は、対象文書６００の具体例を示す説明図である。図６において、解析装置１００は、対象文書６００を受け付ける。図６の例では、対象文書６００は、文１〜文４を含んでいる。対象文書６００における述語が、太字で示されている。対象文書６００における主語や目的語などの項が、下線で示されている。

図６において、文１は「夕方、太郎はもう一度あの公園に行った。」である。文１における述語は、例えば、「行く（行った）」である。文１における主語や目的語などの項は、記述省略されていない。

図６において、文２は「入り口で足を止める。風がブランコを揺らし、空き缶を転がしていく。」である。文２における述語は、例えば、「止める」、「揺らす（揺らし）」、「転がす（転がしていく）」である。文２における述語「止める」にかかる主語「太郎」は、文１における主語「太郎」を流用するものであるため、文２において記述省略されている。

図６において、文３は「車が走る音が遠くから聞こえてきた。」である。文３における述語は、例えば、「聞こえる（聞こえてきた）」である。文３における主語や目的語などの項は、記述省略されていない。

図６において、文４は「昼間の喧噪がまるで夢であったかのように感じられた。」である。文４における述語は、例えば、「感じる（感じられた）」である。文４における述語「感じる」にかかる主語「太郎」は、文１における主語「太郎」を流用するものであるため、文４において記述省略されている。ここで、図７の説明に移行する。

図７は、解析装置１００が解析結果候補を生成する具体例を示す説明図である。図７において、解析装置１００は、対象文書６００の一文ごとに、品詞情報を用いて、述語同定を実行する。解析装置１００は、例えば、対象文書６００の一文ごとに、品詞が動詞、形容詞、名詞−形容動詞語幹である単語を、述語として同定する。解析装置１００は、単語の品詞推定に、既存の形態素解析器を利用することができる。

次に、解析装置１００は、対象文書６００の一文ごとに、項候補を生成する。解析装置１００は、例えば、述語より前に出現する名詞を、当該述語にかかる項候補として生成する。解析装置１００は、具体的には、述語を含む一文から２つ前の一文までに出現する名詞を、当該述語にかかる項候補として生成する。

これにより、解析装置１００は、述語を含む一文において記述省略されている名詞についても、項候補として生成することができる。解析装置１００は、項候補の生成に、既存の述語項構造解析器を利用することができる。解析装置１００は、具体的には、項候補の生成に、単語が受動態であるか、単語に接続された格助詞の種別、単語間の係り受け、単語間の修飾関係、単語間の距離などを利用することができる。

そして、解析装置１００は、項同定モデルを用いたランキングを実行し、項同定を実行する。解析装置１００は、例えば、格ごとに、同定した述語にかかる項候補について、当該格の項候補としての尤もらしさを示す尤度を算出し、算出した尤度に基づいて順位付ける。解析装置１００は、述語の種別によっては、いずれかの格について項候補を順位付けなくてもよい。解析装置１００は、具体的には、述語が自動詞であれば、ヲ格について項候補を順位付けない。

その後、解析装置１００は、格ごとに上位に順位付けられた１以上の項候補を、当該格になりうる項候補として同定し、同定した結果として表７０１を生成する。これにより、解析装置１００は、一文に対応する述語項構造の解析結果に含まれる可能性が比較的低い項候補を同定せず、文脈の一貫性の評価にかかる処理量の低減化を図ることができる。ここで、図８の説明に移行する。

図８は、解析装置１００が解析結果候補集合を生成する具体例を示す説明図である。図８において、解析装置１００は、表７０１に基づいて、対象文書６００の一文ごとに、同定した述語に、同定した格ごとの項候補を対応付けて生成可能である、１以上の解析結果候補を生成する。そして、解析装置１００は、一文ごとに生成した１以上の解析結果候補を選択して組み合わせた、複数の解析結果候補集合を生成する。

解析装置１００は、例えば、文１についての解析結果候補８１１や文２についての解析結果候補８１２などを選択して組み合わせた、解析結果候補集合８０１を生成する。解析結果候補８１１は、例えば、述語「行く」に、ガ格の項候補「太郎」と二格の項候補「公園」とを対応付ける。解析結果候補８１２は、例えば、述語「止める」に、ガ格の項候補「公園」とヲ格の項候補「足」とを、述語「揺らす」に、ガ格の項候補「風」とヲ格の項候補「ブランコ」とを、述語「転がす」に、ガ格の項候補「太郎」とヲ格の項候補「空き缶」とを対応付ける。

また、解析装置１００は、解析結果候補集合８０２，８０３を生成する。結果として、解析装置１００は、８つの解析結果候補集合を生成したとする。これにより、解析装置１００は、いずれの解析結果候補集合が、対象文書６００全体に対応する述語項構造の解析結果に相対的にふさわしいかを判断可能にすることができる。ここで、図９の説明に移行する。

図９は、解析装置１００が解析結果候補集合を出力する具体例を示す説明図である。図９において、解析装置１００は、一貫性モデルによるランキングを実行する。解析装置１００は、例えば、ＥｎｔｉｔｙＧｒｉｄモデルを用いて、複数の解析結果候補集合のそれぞれの解析結果候補集合について、文脈の一貫性のよさを示す評価値を算出する。評価値を算出する詳細は、図１０に後述する。

次に、解析装置１００は、算出した評価値に基づくランキングを実行し、生成した複数の解析結果候補集合を、評価値の大きい方から順位付けする。ここでは、解析装置１００は、解析結果候補集合８０３を第１位に設定する。そして、解析装置１００は、第１位の解析結果候補集合８０３を、対象文書６００全体に対応する述語項構造の解析結果として相対的にふさわしいと判断し、第１位の解析結果候補集合８０３を、対象文書６００全体に対応する述語項構造の解析結果として出力する。これにより、解析装置１００は、対象文書６００の述語項構造の解析精度の向上を図ることができる。

ここでは、解析装置１００が、第１位の解析結果候補集合を出力する場合について説明したが、これに限らない。例えば、解析装置１００が、第１位から所定順位までの解析結果候補集合を出力する場合があってもよい。この場合、解析装置１００の利用者が、出力された解析結果候補集合のうち、対象文書６００全体に対応する述語項構造の解析結果を選択してもよい。ここで、図１０の説明に移行する。

図１０は、解析装置１００が文脈の一貫性を評価する具体例を示す説明図である。図１０において、解析装置１００は、複数の解析結果候補集合のそれぞれの解析結果候補集合について、文脈の一貫性のよさを示す評価値を算出する。

ここで、文脈に一貫性がある文書においては、ある名詞が、連続する２つの文章のうち先行の文章で所定の第１の格になる場合、同じ名詞が、後続の文章で出現しやすく、後続の文章で所定の第２の格になる性質がある。第１の格と第２の格とは同一であってもよい。例えば、同じ名詞が、連続する２つの文章のそれぞれの文章に共通して、ガ格として出現するという場合がある。また、連続する２つの文章の先行の文章でガ格として出現し、後続の文章でヲ格として出現するという場合がある。

解析装置１００は、この性質を利用したＥｎｔｉｔｙＧｒｉｄモデルを用いて、複数の解析結果候補集合のそれぞれの解析結果候補集合について、文脈の一貫性のよさを示す評価値を算出する。ＥｎｔｉｔｙＧｒｉｄモデルは、所定の格になる項候補が出現する規則性に基づいて、文脈の一貫性のよさを評価するモデルである。

ＥｎｔｉｔｙＧｒｉｄモデルは、構文役割の遷移確率を素性として文書をモデル化する。ＥｎｔｉｔｙＧｒｉｄモデルは、例えば、対象文書６００の要素、例えば、名詞が、どのように格遷移を行っているかという情報に基づいて、一貫性のよさを評価する。いずれの要素が、どのように格遷移を行っている場合に、一貫性がよいと評価するかは、例えば、大量の教師データに基づいて機械学習される。

以下では、解析装置１００が、解析結果候補集合８０１について評価値を算出する場合について説明する。解析装置１００は、具体的には、解析結果候補集合８０１に基づいて、対象文書６００のそれぞれの文における、対象文書６００のそれぞれの名詞がなりうる格をマッピングした結果を示す表１０００を生成する。

解析装置１００は、表１０００に基づいて、文１から文２に移行する際に、対象文書６００のそれぞれの名詞が、ガ格からガ格に遷移したか、ガ格からＮＵＬＬに遷移したか、二格からガ格に遷移したかなどを判定する。ＮＵＬＬは、出現しないことを示す。また、解析装置１００は、遷移パターンの総数として、対象文書６００の文の数「４」から「１」を減算した数「３」に、名詞の数「１３」を乗算した数「３９」を算出する。

そして、解析装置１００は、遷移パターンの総数に対する名詞がガ格からガ格に遷移した数の割合「１／３９」などを算出する。解析装置１００は、算出した割合が大きいほど、評価値が大きくなるように、評価値を算出する。これにより、解析装置１００は、文脈の一貫性を示す評価値を算出することができる。

以上のように、解析装置１００は、一貫性モデルを用いることにより、対象文書６００の大域的な文脈を考慮して、対象文書６００全体に対応する述語項構造の解析結果を出力することができる。このため、解析装置１００は、対象文書６００の述語項構造の解析精度の向上を図ることができる。

ここで、一貫性モデルを用いずに対象文書６００の述語項構造を解析する技術では、対象文書６００の大域的な文脈を考慮しないため、記述省略された項に対応する記述省略されていない項が比較的離れた位置にあると、解析精度の低下を招いてしまう。これに対し、解析装置１００は、対象文書６００の大域的な文脈を考慮し、記述省略された項に対応する記述省略されていない項が比較的離れた位置にあっても、解析精度の向上を図ることができる。

（解析処理手順の一例）
次に、図１１を用いて、解析装置１００が実行する解析処理手順の一例について説明する。

図１１は、解析処理手順の一例を示すフローチャートである。図１１において、まず、解析装置１００は、対象文書を受け付ける（ステップＳ１１０１）。次に、解析装置１００は、対象文書の一文ごとに述語同定を実行する（ステップＳ１１０２）。そして、解析装置１００は、同定した述語にかかる１以上の項候補を生成する（ステップＳ１１０３）。さらに、解析装置１００は、生成した項候補について項同定を実行する（ステップＳ１１０４）。

次に、解析装置１００は、対象文書の一文ごとに同定した述語に、同定した項ごとの項候補を選択して組み合わせることにより、複数の解析結果候補集合を生成する（ステップＳ１１０５）。そして、解析装置１００は、ＥｎｔｉｔｙＧｒｉｄモデルを用いて、複数の解析結果候補集合のそれぞれの解析結果候補集合について、文脈の一貫性を示す評価値を算出する（ステップＳ１１０６）。

次に、解析装置１００は、複数の解析結果候補集合のそれぞれの解析結果候補集合について算出した評価値に基づいて、対象文書全体の解析結果として、複数の解析結果候補集合のいずれかの解析結果候補集合を出力する（ステップＳ１１０７）。そして、解析装置１００は、解析処理を終了する。これにより、解析装置１００は、対象文書全体に対応する述語項構造の精度のよい解析結果を出力することができる。

以上説明したように、解析装置１００によれば、対象文書のうち、所定単位の文章ごとに、述語項構造の１以上の解析結果候補を生成することができる。解析装置１００によれば、所定単位の文章ごとに生成した１以上の解析結果候補のいずれかの解析結果候補を選択して組み合わせた、複数の解析結果候補集合を生成することができる。解析装置１００によれば、生成した複数の解析結果候補集合のそれぞれの解析結果候補集合について文脈の一貫性を評価することができる。解析装置１００によれば、評価した結果に基づいて、複数の解析結果候補集合のいずれかの解析結果候補集合を出力することができる。これにより、解析装置１００は、文書の大域的な文脈のよさを考慮して、精度のよい解析結果候補集合を出力しやすくすることができ、述語項構造の解析精度の向上を図ることができる。

解析装置１００によれば、所定単位の文章ごとに、所定種別と判断される、当該文章における１以上の名詞のそれぞれの名詞について、所定種別としての尤度を算出することができる。解析装置１００によれば、所定単位の文章ごとに、当該文章における述語に、算出した尤度が所定値以上の名詞のそれぞれの名詞を対応付けた、１以上の解析結果候補を生成することができる。これにより、生成部３０２は、所定単位の文章に対応する述語項構造の解析結果になる可能性が比較的低い解析結果候補を生成せず、文脈の一貫性の評価にかかる処理量の低減化を図ることができる。

解析装置１００によれば、それぞれの解析結果候補集合について、前段の解析結果候補において第１種別と判断され、後段の解析結果候補において第２種別と判断された名詞の数が大きいほど、評価値が大きくなるように、評価値を算出することができる。解析装置１００によれば、それぞれの解析結果候補集合について算出した評価値に基づいて、複数の解析結果候補集合のいずれかの解析結果候補集合を出力することができる。これにより、解析装置１００は、連続する文章において同じ名詞がガ格になりやすい性質などを利用し、文脈の一貫性を示す評価値を精度よく算出することができる。

解析装置１００によれば、生成した複数の解析結果候補集合のそれぞれの解析結果候補集合について、ＥｎｔｉｔｙＧｒｉｄモデルを用いて、文脈の一貫性を示す評価値を算出することができる。これにより、解析装置１００は、教師データに基づいて機械学習されたＥｎｔｉｔｙＧｒｉｄモデルを用いて、文脈の一貫性を示す評価値を精度よく算出することができる。

解析装置１００によれば、所定単位の文章における名詞に、所定単位の文章における記述省略された名詞を特定することができる。これにより、解析装置１００は、所定単位の文章における記述省略された名詞を、解析結果候補集合に含むことができ、精度のよい解析結果集合を出力しやすくすることができる。

なお、本実施の形態で説明した解析方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本解析プログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また本解析プログラムは、インターネット等のネットワークを介して配布してもよい。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）述語項構造の解析対象になる対象文書を取得し、
取得した前記対象文書のうち、所定単位の文章ごとに、述語項構造の１以上の解析結果候補を生成し、
前記所定単位の文章ごとに生成した前記１以上の解析結果候補のいずれかの解析結果候補を選択して組み合わせた、複数の解析結果候補集合を生成し、
生成した前記複数の解析結果候補集合のそれぞれの解析結果候補集合について文脈の一貫性を評価し、
評価した結果に基づいて、前記複数の解析結果候補集合のいずれかの解析結果候補集合を出力する、
制御部を有することを特徴とする解析装置。

（付記２）前記制御部は、
前記所定単位の文章ごとに、所定種別と判断される、当該文章における１以上の名詞のそれぞれの名詞について、前記所定種別としての尤度を算出し、
前記所定単位の文章ごとに、当該文章における述語に、算出した前記尤度が所定値以上の名詞のそれぞれの名詞を対応付けた、前記１以上の解析結果候補を生成する、ことを特徴とする付記１に記載の解析装置。

（付記３）前記制御部は、
前記それぞれの解析結果候補集合について、連続する２つの解析結果候補のうち前段の解析結果候補において第１種別と判断され、後段の解析結果候補において第２種別と判断された名詞の数が大きいほど、文脈の一貫性を示す評価値が大きくなるように、前記評価値を算出し、
前記それぞれの解析結果候補集合について算出した前記評価値に基づいて、前記複数の解析結果候補集合のいずれかの解析結果候補集合を出力する、ことを特徴とする付記２に記載の解析装置。

（付記４）前記制御部は、
生成した前記複数の解析結果候補集合のそれぞれの解析結果候補集合について、ＥｎｔｉｔｙＧｒｉｄモデルを用いて、文脈の一貫性を示す評価値を算出する、ことを特徴とする付記３に記載の解析装置。

（付記５）前記所定単位の文章における名詞は、前記所定単位の文章における記述省略された名詞を含む、ことを特徴とする付記２〜４のいずれか一つに記載の解析装置。

（付記６）コンピュータが、
述語項構造の解析対象になる対象文書を取得し、
取得した前記対象文書のうち、所定単位の文章ごとに、述語項構造の１以上の解析結果候補を生成し、
前記所定単位の文章ごとに生成した前記１以上の解析結果候補のいずれかの解析結果候補を選択して組み合わせた、複数の解析結果候補集合を生成し、
生成した前記複数の解析結果候補集合のそれぞれの解析結果候補集合について文脈の一貫性を評価し、
評価した結果に基づいて、前記複数の解析結果候補集合のいずれかの解析結果候補集合を出力する、
処理を実行することを特徴とする解析方法。

（付記７）コンピュータに、
述語項構造の解析対象になる対象文書を取得し、
取得した前記対象文書のうち、所定単位の文章ごとに、述語項構造の１以上の解析結果候補を生成し、
前記所定単位の文章ごとに生成した前記１以上の解析結果候補のいずれかの解析結果候補を選択して組み合わせた、複数の解析結果候補集合を生成し、
生成した前記複数の解析結果候補集合のそれぞれの解析結果候補集合について文脈の一貫性を評価し、
評価した結果に基づいて、前記複数の解析結果候補集合のいずれかの解析結果候補集合を出力する、
処理を実行させることを特徴とする解析プログラム。

１００解析装置
１０１，４００，６００対象文書
１０２，４２１，４２２，８０１，８０２，８０３解析結果候補集合
１０３解析結果
２００バス
２０１ＣＰＵ
２０２メモリ
２０３ネットワークＩ／Ｆ
２０４記録媒体Ｉ／Ｆ
２０５記録媒体
２１０ネットワーク
３００記憶部
３０１取得部
３０２生成部
３０３評価部
３０４出力部
８１１，８１２解析結果候補

Claims

述語項構造の解析対象になる対象文書を取得し、
取得した前記対象文書のうち、所定単位の文章ごとに、述語項構造の１以上の解析結果候補を生成し、
前記所定単位の文章ごとに生成した前記１以上の解析結果候補のいずれかの解析結果候補を選択して組み合わせた、複数の解析結果候補集合を生成し、
生成した前記複数の解析結果候補集合のそれぞれの解析結果候補集合について、当該解析結果候補集合において述語にかかる所定種別の項と判断された名詞の数に基づいて、前記対象文書の全体での文脈の一貫性を評価し、
評価した結果に基づいて、前記複数の解析結果候補集合のいずれかの解析結果候補集合を出力する、
制御部を有することを特徴とする解析装置。
前記制御部は、
前記所定単位の文章ごとに、述語にかかる所定種別の項と判断される、当該文章における１以上の名詞のそれぞれの名詞について、前記所定種別の項としての尤度を算出し、
前記所定単位の文章ごとに、当該文章における述語に、算出した前記尤度が所定値以上の名詞のそれぞれの名詞を対応付けた、前記１以上の解析結果候補を生成する、ことを特徴とする請求項１に記載の解析装置。
前記制御部は、
前記それぞれの解析結果候補集合について、連続する２つの解析結果候補のうち前段の解析結果候補において第１種別の項と判断され、後段の解析結果候補において第２種別の項と判断された同一の名詞の数が大きいほど、文脈の一貫性を示す評価値が大きくなるように、前記評価値を算出し、
前記それぞれの解析結果候補集合について算出した前記評価値に基づいて、前記複数の解析結果候補集合のいずれかの解析結果候補集合を出力する、ことを特徴とする請求項２に記載の解析装置。
コンピュータが、
述語項構造の解析対象になる対象文書を取得し、
取得した前記対象文書のうち、所定単位の文章ごとに、述語項構造の１以上の解析結果候補を生成し、
前記所定単位の文章ごとに生成した前記１以上の解析結果候補のいずれかの解析結果候補を選択して組み合わせた、複数の解析結果候補集合を生成し、
生成した前記複数の解析結果候補集合のそれぞれの解析結果候補集合について、当該解析結果候補集合において述語にかかる所定種別の項と判断された名詞の数に基づいて、前記対象文書の全体での文脈の一貫性を評価し、
評価した結果に基づいて、前記複数の解析結果候補集合のいずれかの解析結果候補集合を出力する、
処理を実行することを特徴とする解析方法。
コンピュータに、
述語項構造の解析対象になる対象文書を取得し、
取得した前記対象文書のうち、所定単位の文章ごとに、述語項構造の１以上の解析結果候補を生成し、
前記所定単位の文章ごとに生成した前記１以上の解析結果候補のいずれかの解析結果候補を選択して組み合わせた、複数の解析結果候補集合を生成し、
生成した前記複数の解析結果候補集合のそれぞれの解析結果候補集合について、当該解析結果候補集合において述語にかかる所定種別の項と判断された名詞の数に基づいて、前記対象文書の全体での文脈の一貫性を評価し、
評価した結果に基づいて、前記複数の解析結果候補集合のいずれかの解析結果候補集合を出力する、
処理を実行させることを特徴とする解析プログラム。